摘要随着仪器和分析技术快速发展,蛋白质组学有了新的进展,并成为最重要的生命科学领域之一,其实验数据庞大,要求高通量计算来提高多肽鉴定得分,从而提高蛋白鉴定准确度。而液相色谱中多肽的保留时间信息始终没有得到很好的利用,保留时间是色谱分析中重要的参数,如果能够更好地利用此参数可以提高多肽鉴定质量,从而提高蛋白质的鉴定可靠性。本文试图利用这些信息抓住多肽保留行为的特点,运用化学计量学,化学信息学中常用的方法PLS,KPLS,SVR等建立多肽保留时间的QSAR模型,提高多肽鉴定质量,从而提高蛋白质鉴定的数量和质量。 本文研究的对象多肽与其他化合物不同,多肽是由20种氨基酸组成,反映它们结构的数据目前并没有直接显示,许多学者都是假设多肽的各种物化性质是通过组成它们的氨基酸的性质加和来反映的。本文以文献中搜集到的3个数据集为研究对象逐级深入地研究多肽结构和保留时间的关系,并提出了变量优化的方法和新的局部变量,创造性地以局部变量结合全局变量建立QSAR模型,为QSAR的研究开辟了新的研究方向,并建立了共识模型,得到0.96以上的相关性系数,远远高于文献值。 具体研究步骤如下:首先大规模的搜集20种氨基酸的物化性质,以及多肽研究中新产生的各种组合变量。以数据集1——复旦大学张祥民实验室所得136个多肽为研究对象,通过变量筛选后运用PLS,KPLS,SVR对其建模预报。同时因为单个氨基酸的保留时间来自文献,与136个多肽的保留时间的实验条件不同,所以剔除了这个变量再次建模预报,并运用共识模型预报所得的相关性系数达到0.83优于文献值0.81。但这个结果远远没有达到本文的要求,故希望寻找新的更多的多肽数据集,寻找潜在的新的变量,特别是尝试局部变量在多肽结构与保留时间关系中的应用。 接着以数据集2——346个多肽为研究对象,提出了与位置有关的变量和与性质强度有关的变量,利用PLS,KPLS,SVR,共识模型等方法建模预报,所得相关性系数0.96以上由于文献所得的0.92。 最后以数据集3——834个多肽为验证对象,用同样的方法,同样的变量,建模预报,所得相关性系数达到0.97,远远高于文献的0.93。并得出结论:局部变量和全局变量相结合的方法有效的反映了多肽结构和保留时间的关系,为多肽鉴定和蛋白质鉴定奠定基础。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文