摘要开创系统生物学以来,信息技术成为生物学研究不可缺少的重要手段。计算机领域的研究者利用数据挖掘、机器学习等方法从不同角度诠释生物学中的难题。其中关于生物网络中重要的蛋白质关系网络的研究逐渐成为近年来研究的热点,计算机领域研究者通过计算方法来探寻蛋白质功能、发现蛋白质复合物及功能模块。<br> 本文通过分析蛋白质关系网络的可靠性对蛋白质复合物识别的影响,针对生物学家不同的需求情况,设计了基于蛋白质关系网络可靠性分析的蛋白质复合物识别算法,主要研究包括:<br> 本文首先对蛋白质关系网络的可靠性进行分析,即利用基因共表达数据、蛋白质结构域等量化蛋白质关系的可信度,并通过对比模糊贝叶斯分类模型与普通贝叶斯模型在分类蛋白质复合物时的差异,揭示蛋白质关系网络的噪音对蛋白质复合物识别的影响较大,为设计以下三种基于蛋白质关系网络可靠性分析的复合物识别方法提供依据。<br> 在已知蛋白质关系网络并且网络不可变的情况下,本文提出基于基因本体的语义相似度计算方法来对网络边加权,并结合加权网络设计了蛋白质复合物的识别方法。结果表明,利用基因本体的加权方式,减轻了网络中的假阳性信息的影响,与现有多个性能领先的复合物识别方法相比,该方法取得了最高的F值。<br> 在已知蛋白质关系网络并且网络可变的情况下,本文融合丰富生物信息资源为特征利用机器学习方法重新构建网络用于复合物识别。结果表明,重新构建的关系网络较之现有蛋白质关系网络含有可信蛋白质关系比例更高,现有蛋白质复合物识别方法在重新构建的网络上性能均有提高,尤其显著体现在准确率和F值上。<br> 在未知蛋白质关系网络仅已知有限的少量蛋白质关系情况下,本文提出了多层网络模式转换方法构建新关系网络用于复合物识别。实验结果表明,本文方法识别复合物的性能高于现有方法,尤其体现在F值上,此外,新建网络较现有网络含有更高比例的在生物学意义上相关的关系,其他蛋白质复合物识别方法在新建网络上性能同样得到提高。<br> 综上所述,本文针对蛋白质关系网络的可靠性问题,在不同条件下,有效的解决了网络中关系不可靠性对蛋白质复合物识别的影响,其中一些预测的新复合物已经过生物意义上统计评价,很可能对生物实验有所启发。此外,本文提出的蛋白质关系网络构建方法,对其他复杂网络中边的预测也具有一定的借鉴意义,将在未来工作中继续探讨。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文