摘要糖肽质谱数据的无标记定量算法是生物信息学中重要的研究内容之一。随着计算机技术的快速发展,使得面向糖肽质谱数据的无标记定量算法研究成为可能。为了完成计算机辅助的糖肽质谱数据无标记定量,本文解决的问题及主要工作如下:<br> (1)针对峰簇混叠导致的峰簇分离提取易出错问题,本文结合离子同位素分布规则,提出了一种基于三维信息的多电荷混叠峰簇分离提取算法(3D-basedMultiple-chargesOverlapPeaksExtractionalgorithm,3D-MOPE)。算法首先充分考虑了一级质谱中同位素峰簇混叠的情况;其次,利用糖肽离子的时间、质荷比和离子强度属性构造三维峰簇,并在三维空间中完成混叠峰簇分离提取,全面考虑了峰簇的所有特征。实验结果表明,本文提出的3D-MOPE算法在真实数据集上比MaxPeak、PepQuan和MaxQuant算法的峰簇提取准确率分别提高了16%、13%及2%。<br> (2)针对峰簇漂移导致的质谱数据中峰簇无法对准问题,本文提出了一种基于峰特征交叉融合的精确峰对准算法(AccuratePeaksAlignmentalgorithmFusingCrossPeaksFeatures,APAFCPF)。算法包括两个步骤,首先构建了基于随机扰动的时间加权全局粗对准模型,完成糖肽离子粗对准,解决了粗校准过程中易受异常值影响的问题;其次,提出了峰特征交叉融合公式,并使用动态规划算法实现了峰簇精确对准。实验结果表明,在DS3数据集上本文提出的APAFCPF算法比IPTW算法、SFA-MS算法以及DTW算法在F1指标分别提高了0.08、0.14和0.06。<br> (3)针对系统误差导致的定量结果准确率不高的问题,本文提出了一种高覆盖率、高正确率的糖肽质谱数据无标记定量算法(GlycopeptideMSData-orientedLabel-FreeQuantitativeAlgorithm,GpMS-LFQ)该算法结合二三章的研究内容,首先基于峰簇信息计算糖肽离子的含量;其次,提出多模块归一化方法进行系统误差矫正,最终得到糖肽离子的定量结果。实验结果表明,在三次实验中本文的GpMS-LFQ算法F1指标比MaxQuant算法分别提高了0.51、0.27和0.20,比Byonic算法分别提高了0.24、0.02和0.08。基于该算法开发了一款糖肽无标记定量工具(GpQT)。<br> 综上所述,本文以糖肽质谱数据为对象,研究糖肽无标记定量算法,可以为疾病诊断和生物标记物的发现提供依据。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文