摘要DNA序列中储存着大量复杂且有价值的生物信息,其中DNA序列的相似性分析可以发现生物之间的进化关系,从而更好地处理生物信息;DNA序列的模式匹配可以统计基因片段出现的位置和数目,有利于对致病基因进行状态跟踪和靶向治疗。但是大多数序列相似性分析和模式匹配方法都针对整个序列而不是频繁序列模式,这就加大了计算的复杂度;并且目前的研究方法均忽略了含缺失碱基的基因片段,即对于负序列模式,还没有统一的分析方法,这极大地影响了分析生物信息的准确性和效率。针对现有的分析方法效率较低,得到的DNA序列的进化关系和匹配路径数目较少的问题,本文对其包含的关键问题进行了研究,分别提出两种解决策略,具体如下:<br> 针对生物序列相似性分析中存在的问题,提出了一种“基于正、负DNA序列模式的相似性分析”的方法。首先,对整个DNA数据使用f-NSP算法进行模式挖掘,得到物种的最大正、负频繁序列模式。然后,提出一种在二维平面上表示正、负序列的图形表示方法,这种方法可以很好的表示正、负序列模式并通过公式把它转化为时间序列。最后,使用基于DTW距离测量来对DNA序列进行相似性分析,并把结果绘制成系统发育树。通过在真实生物数据上的实验表明,所提的方法可以获得丰富的物种进化关系,分析结果也更符合物种实际的进化关系,并且精确度得到了提高。<br> 针对生物序列模式匹配中存在的问题,提出了一种“带一般间隙和One-off约束的正、负DNA序列模式匹配”的方法。首先,将挖掘出的频繁序列模式作为匹配过程中的模式P,这使得模式匹配更有实际意义。然后,提出两种重复元素检测机制,该机制可以有效的剪枝掉不符合One-off约束的匹配路径,并精确地匹配到所有信息和消除冗余。通过对10个真实物种的DNA序列进行实验,表明该算法可以有效地处理负序列模式并获得更多的匹配路径,同时运行效率也得到了提高。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文