摘要噬菌体是专一感染细菌的病毒,它和细菌在自然环境里共同存在、共同进化,然后影响着整个生态环境的功能。由于噬菌体具有宿主特异性高,指数增殖能力强,不良反应少和种类极其丰富等特点,应用噬菌体实现对复杂肠道菌群的调节和改造将有助于研发新型治疗剂,治疗耐药菌的感染以及进行噬菌体靶向治疗。随着高通量测序技术的普及,越来越多具有缺失宿主信息的病毒序列迫切需要利用生物信息学方法来预测它们的宿主以及病毒-宿主动态相互作用对微生物群落的影响。本项研究旨在通过融合多个噬菌体与宿主互作信号和使用多种机器学习算法来综合性地预测噬菌体与宿主相互作用。<br> 方法:1.搭建和开发关于预测噬菌体与细菌单个互作信号的服务器环境,工具与算法,互作信号主要是CRISPR,原噬菌体,遗传同源性,蛋白质-蛋白质互作以及序列组成(寡核苷酸频率模式)。2.建立数据库,从NCBI以及参考文献所提到的数据里下载了13,055个细菌基因组和10,463个噬菌体基因组,基于这些基因组和搭建好的环境建立关于这5类噬菌体与细菌互作信号的数据库,以便进行后续预测分析。3.开发算法流程,分别建立噬菌体宿主预测,细菌互作的噬菌体预测以及噬菌体-细菌对的互作性预测的算法流程,利用7种不同的机器学习算法(随机森林,决策树,贝叶斯,逻辑回归,支持向量机)对已知的噬菌体-细菌互作对的18个信号特征进行模型训练,结合两层互作标准,实现单个信号和综合性预测。<br> 结果:噬菌体与细菌互作预测算法实现了三个角度的双向预测,预测宿主,互作的噬菌体以及评估一对噬菌体-细菌的互作性,关于原噬菌体预测,除了使用已发表的工具外,还开发了一套结合基于密度的空间聚类算法和滑窗法来预测原噬菌体区域算法。对于这5个互作信号,定义了相关的18个能代表噬菌体与细菌互作的信号特征,其中,机器学习模型使用10倍交叉验证法,利用817对已知互作的噬菌体-细菌对7个模型进行参数训练,在取得最优参数后,使用不同于训练集的936对已知互作的噬菌体-细菌作为测试集,预测准确率高达0.875,且ROC曲线下的面积AUC达到了0.93。此外,利用standalone版本预测125,842个宏基因组病毒contigs的宿主,预测率高达54.54%,而原文章只有7.7%。Webserver已经搭建成功,提供了丰富和个性化的图形展示,网站已有来自多个国家的人访问和使用。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文