使用序列和网络信息预测辅酶A相关蛋白的集成算法AN-论文-万方医学网

首页 > 华中农业大学 > 使用序列和网络信息预测辅酶A相关蛋白的集成算法AN

使用序列和网络信息预测辅酶A相关蛋白的集成算法AN

二维码有效期 120s

收藏纠错

摘要辅酶A(Coenzyme A, CoA)在多种细胞功能和代谢通路中发挥着至关重要的作用，准确识别CoA相关蛋白(Coenzyme A-associated proteins，CAP)有利于深入理解酰基转移、羧酸代谢、三羧酸循环等重要生物过程。利用实验方法鉴定这些重要蛋白耗时费力且价格昂贵，而开发计算方法则有望弥补现有实验技术的不足。虽然已有少数计算研究从不同角度对CAP进行了分析，但是鲜有研究对这些蛋白从序列、进化、结构以及网络等层面进行过系统的特征化并尝试综合这些信息来开发理论预测模型，因此本研究将率先在这方面进行探索。<br>　　本研究提出了一种基于序列和网络信息来预测CAP的集成算法。首先，该算法联合机器学习方法和模板方法开发了用于识别CoA结合残基的预测模型，并且利用预测的结合残基分布特征进一步预测相关蛋白。实验结果表明相较于其他蛋白，CAP更倾向于与CoA或其衍生物发生物理绑定。其次，在序列和网络层面设计了其他六类特征并构建了相应的子分类器，这些特征包括词嵌入向量、远距同源物数量、进化保守性、氨基酸组成、预测的结构特征和网络拓扑特征。通过比对分析，发现CAP具有更多的远距同源物且更古老的蛋白质年龄，同时拥有更有序的且疏水的分子构象，并在蛋白质相互作用网络中稠密聚集。然后，对上述七个子分类器分别在人类、小鼠和拟南芥的训练集上进行了评测，发现所有分类器均可以用于预测CAP,相应的曲线下面积均大于0.7。为了联合不同来源的信息，进一步以子分类器的输出概率为特征构建了两层堆叠的集成算法，该模型在三个物种的训练集上获得的曲线下面积分别为0.990，0.985和0.981，在测试集上的曲线下面积分别为0.965，0.969和0.968。这些结果表明联合多元化的信息有利于更准确地识别CAP。最后，把已建立的模型应用于UniProt数据库中已审核过的上述三物种的所有蛋白，选取具有较高预测分值的165个人类蛋白、206个小鼠蛋白和231个拟南芥蛋白进行基因功能和通路富集分析，发现这些蛋白主要富集到氧化还原及多种合成与代谢过程，位于线粒体和叶绿体等细胞组分并参与多种氨基酸代谢和三羧酸循环通路。这些观察与CAP的已知功能一致，进一步肯定了模型的有效性，同时为CoA与相关蛋白间的相互作用提供了新的线索。