摘要蛋白质被认为是生命中的基本要素,具有维持生命的各种功能,这也使得蛋白质组学成为现代生物信息学中非常重要的研究领域。由于蛋白质根据其功能可以分为不同的类别,而同一类别的蛋白质具有相似的结构,同时,它们也具有相似的性质,因此,研究蛋白质的分类对确定其功能有着重要的意义。而随着生物技术的发展,大量的蛋白质被发现,其中只有少部分通过实验分析确定了它们的结构以及相应的生物功能,对于快速增长的蛋白质数据,采用实验的方法分析需要耗费大量的人力和时间。因此,通过计算技术对蛋白质进行分类并研究其功能以更好地理解生命周期背后的理论变得越来越重要。<br> 如今,机器学习和神经网络技术被广泛地应用于生物信息学问题当中,其利用学习的方式从大量的数据中提取知识,进而分析其背后的规律。而在许多问题中,这些数据可以由图、网络、树或序列的离散结构自然地表示。本文以蛋白质为研究对象,将蛋白质转化为图结构模型,通过提出的VES(Vertex Edge Similarity)图核函数对蛋白质图结构提取特征,并结合DNN(Deep Neuml NeMorks)构建出对蛋白质分类的VES-DNN模型。通过实验结果验证,VES-DNN模型的分类效果优于其他图核。另外,在此基础上,本文利用多核进行集成学习,提出MultiKernel-Stacking(Multiple Kemel Stackillg)蛋白质分类模型,并通过实验结果可以得到,该分类模型优于VES-DNN模型。<br> 本文主要的研究内容如下:<br> 1.提出了VES图核函数。首先,将图的赋权邻接矩阵中的每一行作为对应顶点的向量,通过比较两图中顶点向量的相似性来度量两图的相似性,并根据两图顶点的最大相似度来确定核值。<br> 2.提出了基于VES图核函数的VES.DNN蛋白质分类模型。根据VES图核函数得到关于蛋白质图结构样本的核矩阵,将核矩阵中的每一行作为神经网络的输入特征向量,得到分类结果。通过实验结果表明该模型可以有效的提高蛋白质的分类效果。<br> 3.提出了MultiKernel-Stacking蛋白质分类模型。该模型通过Stacking集成学习的方法,将多个图核函数的VES-DNN模型分类结果组成的向量作为神经网络的输入,得到MultiKernel-Stacking模型的分类结果。通过实验结果分析并与VES-DNN模型比较,该模型进一步提高了蛋白质的分类效果。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文