摘要对人类基因启动子进行有效的特征提取在基因组分析领域依然是一个重大挑战,因为其对于更好地理解人类基因组转录有着重要的意义,并且也有利于更好地进行基因组分析与实验指导。尽管越来越多的机器学习算法已经被运用到真核生物基因识别中,但是由于启动子具有更加复杂的多样性,对于识别还存在很大的提升空间。<br> 为了能从人类启动子中提取更具特异性与分辨力的特征,本文基于统计学散度和卷积神经网络,提出了一种高效的深度卷积散度编码算法。统计学散度可以有效地针对人类基因启动子来优化其kmer特征提取过程。并且,在基因序列分析中卷积神经网络也被用来进行有效地自动化特征提取。在本文提出的深度卷积散度编码算法中,我们首先提出一种最具信息化的kmer沉降算法,对于原始的基因序列数据进行编码,其中一系列统计学散度编码算法可以对最具分辨力的kmer在基因中的分布进行优化,同时它也能将具有重要生物意义的位置信息保留下来。然后,多个卷积神经网络被用来对特征数据进行有效的二次编码,从而提取更低维度的特征。最后,通过设计一种双层决策模型,训练集成多个支持向量机并构建了一个人类启动子层次型识别框架。算法框架具有良好的灵活性,可以自由融合新的特征提取算法或者新的分类模型,并且可以扩展到其他类似的基因组功能元件的识别与发现中。通过多种有效性实验验证证明,深度卷积散度编码算法是一种高效的人类基因启动子编码算法,对于帮助提高人类启动子识别具有重要意义,同时与之结合的人类基因启动子层次型识别算法框架可以对人类启动子进行高效识别,展现出了良好的性能。<br> 最后,对人类基因启动子识别以及基因组序列分析的进一步研究方向本文进行了简要的论述。
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



