标签单核苷酸多态位点选择方法研究-论文-万方医学网

首页 > 湖南大学 > 标签单核苷酸多态位点选择方法研究

标签单核苷酸多态位点选择方法研究

二维码有效期 120s

收藏纠错

摘要由单个核苷酸变异所引起的基因组水平上的遗传序列多态性，称为单核苷酸多态性（Single NucleotidePolymorphism，SNP）。在人类基因组中存在着上百万的SNPs位点，对人类复杂疾病的研究带来了巨大挑战。不同遗传标记之间如SN P之间在多代遗传中所存在的一种标记非随机组合的现象，也即连锁不平衡，因此研究者可以选择少部分的SNPs位点包含大部分的遗传差异信息，这部分SNP位点称为标签单核苷酸多态位点（标签SNP，TagSNP）。目前，已有许多的研究应用SNPs位点之间的连锁不平衡特性进行标签SNP位点选择，但是由于SNPs位点数量巨大，这些方法存在着许多缺陷，比如大部分计算方法只能应用于单体型数据，没有考虑疾病状态信息，非标签SNP位点的预测准确度低等。针对现有方法存在的问题，本文对标签SNP位点选择的主要研究工作有：<br>　　（1）大部分方法都是基于SNP两两位点之间的连锁不平衡。而已有研究表明多个位点之间也存在着较强的连锁不平衡关系，能够进一步帮助减少标签SNP位点选择的数目。此外，由于实验方法和技术的限制，目前大部分测序方法得到的是基因型数据而不是单体型数据，为了进行标签SNP位点选择，这些方法必须从基因型数据中推断出单体型数据，但是这个过程是十分复杂和需要昂贵代价的。为了克服这些困难，本文提出了一种基于信息论的平均信息增益率（AIGR）的连锁不平衡度量方法，然后利用该度量方法作为聚类相似性度量提出了一种新的标签 SNP位点选择方法，使用层次聚类模型和AIGR作为聚类相似性度量对SNP位点数据集进行聚类，再从每一个聚类中选择该聚类的标签SNP位点，最后对选择出的标签SNP位点使用支持向量机进行预测评价。<br>　　（2）SNP位点数据与疾病状态相关的位点才是具有实际意义的，而目前大部分的标签SN P位点选择都只考虑了位点间的连锁不平衡，而没有考虑疾病的状态信息，这对于标签SNP的选择是很局限的。因此，本文进一步考虑了疾病的状态信息进行标签 SNP位点选择，也就是结合SNP位点间的连锁不平衡特性和疾病的状态信息进行标签SNP位点选择。该方法的主要思想是利用稀疏表示来计算SNP位点与疾病状态之间的相关性、SNP位点与SNP位点之间的相关性。其次就是基于图理论设计了一种SNP位点的聚类方法。这种方法既剔除了与疾病状态无关的SNP位点也剔除了由于SNP位点间的连锁不平衡产生的冗余SNP位点，最终得到的标签SNP位点子集是即满足与疾病状态最相关，同时子集内的冗余SNP位点最少，保证了所选择的标签SNP位点子集的效力。