摘要串联质谱是当前大规模蛋白质组分析的核心技术,自动化解析其数据则是肽段/蛋白质得以鉴定的关键,而串联质谱的二级谱图又是鉴定过程中最为基础的数据。二级谱图中大量存在的噪声可能引发谱图解析软件错误识别肽段碎片离子,增加随机匹配风险,导致肽段鉴定中假阳性率和假阴性率增高。因此,串联质谱数据预处理是保证谱图质量、改善肽段鉴定的一种有效方式。串联质谱数据的预处理方法已多有报道,或置于搜索引擎之中、或专事于原始数据过滤,但是迄今尚未有较为令人满意的软件问世。我们以为,串联质谱数据的预处理应当与质谱仪器发展同步,要密切关注高精度二级质谱信号的特点;应当对于二级质谱数据的噪声来源有足够的认识;应当利用新型计算手段判断噪声。正是基于这样的判断,我们启动了二级串联质谱数据预处理的系统研究工作。<br> 本研究中,我们收集了8类不同实验类型的大规模高精度的串联质谱数据集,用以测定新型预处理方法的专一性和普适性。针对高精度质谱数据的特点和多种来源的噪声干扰,我们设计了一种分级预处理的策略,主要包括去除亚胺离子、去除标记相关离子、去同位素峰、高价态电荷去卷积。基于所收集的数据库,我们系统评估了分级预处理对肽段鉴定灵敏度和可信度的影响。评估结果表明,分级预处理能够有效地减少噪声干扰,显著地提升肽段/蛋白质鉴定。在两个iTRAQ8标记数据集上平均提升了27%的肽段鉴定,在非标记数据集上平均有6.3%的肽段鉴定提升。<br> 图论方法能够依据碎片离子间的相互关系构建网络,从众多信号中区别哪些是缺乏分子间必然联系的噪声。本研究中,我们首次应用图论方法进行二级质谱数据的预处理;我们假设,既然肽段碎裂遵循一定的规则,那么碎裂离子之间也确定存在一个相互作用的网络图;由此我们提出一种基于离子关系网络的预处理算法。从多个数据集上的测试评估结果来看,这种新型的图论预处理算法能够有效识别噪声,显著提升肽段/蛋白质鉴定率。我们还进一步评价了图论预处理对正库匹配和反库匹配的影响,发现这种预处理能够显著提升正库匹配率,但是并不影响反库的随机匹配。<br> 为了开发一种实用的二级质谱数据的预处理方法,我们力图将本研究测试的各种预处理方法集成为一个完整的易于操作的软件,即所谓的pClean系统。pClean应用Java和R语言编写,并以开源R包的形式发布。pClean能够处理不同实验类型的质谱数据(非标记或标记肽段),同时提供了多样化、可操控的预处理选项。我们比较了pClean与常用MS/MS峰提取软件之间的匹配,证明了它们之间的匹配度令人满意;基于同一数据库,我们也比较了pClean与常见的预处理方法之间的过滤效率,发现了pClean在整体表现优于现有的所有预处理方法。所有的测试结果提示,pClean基本达到了我们的设计要求:去除干扰高精度二级谱图解析的噪声、提高肽段/蛋白质的鉴定效率、适用于规模化数据和日常操作。
更多相关知识
- 浏览4
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



