基于在线学习策略的蛋白质二级结构预测研究-论文-万方医学网

首页 > 同济大学 > 基于在线学习策略的蛋白质二级结构预测研究

基于在线学习策略的蛋白质二级结构预测研究

导出原文传递学术成果认领

收藏纠错

摘要蛋白质二级结构预测是生物信息学研究领域的热门话题。获知蛋白质的结构有助于研究蛋白质的功能。在蛋白质组学的发展过程中，蛋白质二级结构的预测有着重要的意义。目前蛋白质二级结构预测方法对特定数据集的预测准确度已经能够达到80%以上。但随着时间的推移，新发布的蛋白质序列信息增长速度很快，产生了大量新的数据，用之前的数据库建立的模型预测这些新蛋白的结构信息，其预测准确度很低。以往解决办法是重新收集数据，再次建模，推出预测器的新版本。然而，这种处理方案需要耗费大量人力周而复始地收集数据重新建模。很明显，这是非常繁琐，笨拙的。因此，有必要构建一个能够实现自动实时收集数据，自我学习，无人工干预下定期更新模板库的预测器。<br>　　本文基于在线学习的理念，提出了一种二级结构的预测新方法：SIPSS(Sustainable Inferring Protein Secondary Structure)。SIPSS收集了PDB(Protein Data Bank)中发布的蛋白质序列和结构信息，按照蛋白质结构的解析时间和序列间的同源性，划分为三个数据库：模板库、训练集和测试集。在此基础上，SIPSS分为建模预测过程和在线学习过程。建模预测过程：SIPSS以同源序列的结构保守性为理论依据，采用SPSSM(Structural Position-Specific Scoring Matrix)作为变量，SPSSM为我们实验室在蛋白质二级结构预测领域的前期研究成果，它足以代表蛋白质序列的同源信息。本文采用多重同源比对将训练集中蛋白质序列与模板库比对，得到SPSSM变量，运用条件随机场对SPSSM变量与对应的二级结构建立模型，并且用测试集检测模型的预测效果。在线学习过程：从2016年4月起，每月自动从PDB中下载当月新发布的蛋白质数据，用建好的模型预测，筛选出新发布的蛋白质中与模板库同源性较低的条目更新至模板库中，之后的预测会采用最新更新的模板库。<br>　　起初SIPSS对于大规模低同源信息的测试集预测准确度为72%，这个结果处于中游水平，但在线学习后对PDB中每月发布的新增蛋白的预测表明：当月蛋白质的预测准确度可平均提高25%左右，对于CASP12的预测结果表明：SIPSS学习到2016年9月，其预测准确度为80.6%，这个结果已大幅超过现有优秀的预测器，如：DeepCNF、SPIDER2、PSIPRED、JPredV4、Proter4.0。而对2017年发表于《Nature》的典型蛋白5B5R的预测结果也表明自动学习能大幅度提高SIPSS的预测能力。这些说明SIPSS是一个能够不断自我学习的预测器，随着时间的推移，SIPSS的预测效果将会不断提高。<br>　　本文建立了一个蛋白质二级结构在线预测网站和一个自动在线学习的后台程序，在线预测网站可供科研工作者用于大规模地预测蛋白质二级结构，网址是：http://cheminfo.tongji.edu.cn/SIPSS/，后台在线学习程序会每月自动学习PDB中最新发布的蛋白质信息。