摘要随着生物基因组计划的相继完成和全面实施,产生了越来越多的分子序列数据,生物学研究的重点也从数据积累向数据分析和解释过渡。生物信息学便在这种背景下应运而生。它研究的内容和领域非常丰富,其中大多数领域的研究工作都是对这些分子序列给出合理的数学描述。近二十多年来,DNA和蛋白质序列的数学描述在研究生物序列的比较分析中的作用越来越大,并且与之相对应的数值特征及相似性分析也相继提出。论文在DNA和蛋白质序列的数学表示、相似性分析和进化树的构造等方面进行研究,主要工作包括: 在对DNA和蛋白质序列的数学表示方法进行较为详细的综述后,提出了一种基于双核苷酸的DNA序列2D图形表示方法,利用核苷酸的分类给出了序列的分布曲线图形表示。根据图形表示的特点构造出新的协方差矩阵CM,然后从矩阵中提取出2维特征向量来代表物种的信息量。通过对11个物种的β-球蛋白基因全编码序列的实验分析,验证了方法的有效性。 给出基于新的氨基酸分类的蛋白质序列5D表示方法,进而在数学表示的基础上得到了M矩阵,利用M矩阵求得矩阵的数学不变量,即五维特征向量。根据两向量之间的角度,对13种冠状病毒N蛋白的原始序列进行了相似性分析。利用PHYLIP软件对其进行构造进化树,并对其实验结果与传统方法得到的实验结果进行比较。实验结果表明,这种方法具有数学模型简单,计算复杂度低等优点,并且实验结果较好。这种表示方法及其相似性分析对于蛋白质序列的比较是一种新的推动力。
更多相关知识
- 浏览101
- 被引6
- 下载4

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



