摘要由单个核苷酸变异所引起的基因组水平上的遗传序列多态性,称为单核苷酸多态性(Single NucleotidePolymorphism,SNP)。在人类基因组中存在着上百万的SNPs位点,对人类复杂疾病的研究带来了巨大挑战。不同遗传标记之间如SN P之间在多代遗传中所存在的一种标记非随机组合的现象,也即连锁不平衡,因此研究者可以选择少部分的SNPs位点包含大部分的遗传差异信息,这部分SNP位点称为标签单核苷酸多态位点(标签SNP,TagSNP)。目前,已有许多的研究应用SNPs位点之间的连锁不平衡特性进行标签SNP位点选择,但是由于SNPs位点数量巨大,这些方法存在着许多缺陷,比如大部分计算方法只能应用于单体型数据,没有考虑疾病状态信息,非标签SNP位点的预测准确度低等。针对现有方法存在的问题,本文对标签SNP位点选择的主要研究工作有:<br> (1)大部分方法都是基于SNP两两位点之间的连锁不平衡。而已有研究表明多个位点之间也存在着较强的连锁不平衡关系,能够进一步帮助减少标签SNP位点选择的数目。此外,由于实验方法和技术的限制,目前大部分测序方法得到的是基因型数据而不是单体型数据,为了进行标签SNP位点选择,这些方法必须从基因型数据中推断出单体型数据,但是这个过程是十分复杂和需要昂贵代价的。为了克服这些困难,本文提出了一种基于信息论的平均信息增益率(AIGR)的连锁不平衡度量方法,然后利用该度量方法作为聚类相似性度量提出了一种新的标签 SNP位点选择方法,使用层次聚类模型和AIGR作为聚类相似性度量对SNP位点数据集进行聚类,再从每一个聚类中选择该聚类的标签SNP位点,最后对选择出的标签SNP位点使用支持向量机进行预测评价。<br> (2)SNP位点数据与疾病状态相关的位点才是具有实际意义的,而目前大部分的标签SN P位点选择都只考虑了位点间的连锁不平衡,而没有考虑疾病的状态信息,这对于标签SNP的选择是很局限的。因此,本文进一步考虑了疾病的状态信息进行标签 SNP位点选择,也就是结合SNP位点间的连锁不平衡特性和疾病的状态信息进行标签SNP位点选择。该方法的主要思想是利用稀疏表示来计算SNP位点与疾病状态之间的相关性、SNP位点与SNP位点之间的相关性。其次就是基于图理论设计了一种SNP位点的聚类方法。这种方法既剔除了与疾病状态无关的SNP位点也剔除了由于SNP位点间的连锁不平衡产生的冗余SNP位点,最终得到的标签SNP位点子集是即满足与疾病状态最相关,同时子集内的冗余SNP位点最少,保证了所选择的标签SNP位点子集的效力。
更多相关知识
- 浏览151
- 被引1
- 下载24

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



