摘要序列标签是指肽段序列中局部的连续氨基酸短序列。为了减少数据库搜索时间、提高肽段鉴定的准确性以及发现未知修饰等,提出了序列标签提取方法。数据非依赖采集(DIA)能够实现对蛋白质的全面覆盖,并且具有高灵敏度、高重现性等优点,在单细胞蛋白质组学中正发挥着举足轻重的作用。由于 DIA 对隔离窗口内的所有不同肽段母离子进行全面扫描,并同时对所有母离子进行碎裂,导致获取的二级谱图信息非常丰富且复杂,如何针对复杂的 DIA 二级谱图进行序列标签提取是一个具有挑战性的工作。由于 DIA 二级谱图中包含不同肽段的碎片离子,在进行序列标签提取时,难以确定所使用的谱峰是否来自同一条肽段,从而给序列标签提取带来困难,这也使得在 DIA 质谱数据分析领域仍然缺少序列标签提取工具。针对上述问题,本文设计实现了直接提取和拆分谱图两种策略来对 DIA 谱图进行序列标签提取。<br> (1) 针对在 DIA 质谱数据分析中缺少序列标签提取工具的问题,提出了一种对DIA二级谱图直接进行序列标签提取的算法GT-DIA。该方法通过将DIA二级谱图转化为质谱连接图来提取序列标签。通过考虑连接图中节点的出入度等信息,提高了序列标签提取打分函数的准确性。在根据谱峰差值推断氨基酸时,通过构建质量索引大幅提高了遍历序列标签的速度。在提取序列标签时,通过使用动态规划算法以及小顶堆的动态剪枝,实现了等长序列标签的提取。以 DIA-NN 的鉴定结果作为标准,GT-DIA对DIA二级谱图提取三长序列标签的灵敏度达到了82.7%。<br> (2)为了减少DIA二级谱图中不同肽段的碎片离子在提取序列标签过程中产生的干扰,提出了基于 DIA谱图拆分策略的 De-DIA算法。该流程首先根据母离子与碎片离子色谱曲线的一致性,将 DIA 谱图拆分为伪二级谱图,然后对伪二级谱图进行序列标签提取。为了解决现有伪二级谱图拆分算法存在拆谱速度低、拆谱结果不准确等问题,提出了一种基于矩阵余弦相似度的伪二级谱图拆分算法 CosDIA。CosDIA以DIA二级谱图为中心进行拆谱,通过使用矩阵运算对色谱曲线进行相似度打分,同时使用同位素峰去除算法以及判断色谱曲线形状的高斯分布函数,提高了谱图拆分的准确性。与CorrDIA相比,CosDIA大幅减少了拆谱时间。对得到的伪二级谱图提取序列标签并以主流DIA数据分析软件DIA-NN的鉴定结果作为标准,De-DIA对DIA二级谱图提取三长序列标签的灵敏度达到了87.4%。
更多相关知识
- 浏览0
- 被引1
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



