摘要生物信息学是一门利用计算机技术,通过数学方法建模来专门分析生物数据的学科。在生物信息学的研究方向中,对基因表达数据的分析是其中的重点与热点。基因表达数据反映的是直接或间接测量基因转录产物mRNA在细胞中的丰度,该数据中包含着基因活动的信息,它可以反映细胞当前的生理状态,也可以帮助获取基因功能和基因表达调控的信息。然而,现有的高通量检测方法,包括微阵列和RNA-Seq都存在测量误差。因此在基因表达数据的预处理中,关键问题便是标准化问题,其目标是消除数据中存在着的由技术等人为因素造成的样本或特征(如基因)之间的测量差异或不想要的生物效应。为了更准确地得到感兴趣的生物效应,标准化这个步骤至关重要,它的正确性决定了后续分析的准确性。<br> 目前的标准化方法根据前提假设主要分为两大类:基于样本的全局特性假设(主要有CPM、UQ、RLE方法)和基于稳定基因的全局特性假设(主要有TMM和TU方法)。这些方法的共同点是在标准化的过程中,会对每一个样本分别产生归一化因子,归一化因子是为了确保两个样本中具有相同表达水平的基因不会被检测为差异表达。基于稳定基因假设,如果将基因作为图节点,将基因间的稳定表达关系作为节点间的连边,发现在图中寻找稳定基因的过程与图论中最大连通子图问题相似。受此启发,本文基于最大连通子图理论提出了URG(Uniform Ratio Graph)算法。URG算法的主要思想为,构建一个以基因为节点,基因间的稳定表达关系为连边的图模型,在算法中利用表达值对数比的方差来度量这种稳定关系,方差越小越稳定,接着算法利用图的最大连通子图理论在所有基因中进行稳定基因的筛选,最后通过将每个样本稳定基因表达量的几何平均数归一到相同水平来计算归一化因子。<br> 在算法的验证部分,本文先使用各种标准化方法对数据进行标准化处理,接着对处理后的数据进行差异表达分析,以考察和比较各种标准化方法的效果。本文共使用三种类型的数据:基于正态分布与负二项分布模拟产生的微阵列数据与RNA-seq数据;真实的微阵列数据与RNA-seq数据;以不存在差异表达的真实数据为底层数据生成的模拟数据。因为模拟数据中存在差异表达的基因标签以及每个样本的真实归一化因子,对该部分数据的评价指标主要包括识别差异表达基因的能力、识别一致性基因的能力、真实归一化因子与算法计算得到的归一化因子之间的相关系数。结果发现URG的指标结果随着上调率的变化,其变化相对其他标准化方法更加稳定,且在上调率过大与过小时,其指标结果有明显的优势。真实数据由于缺少差异表达基因的信息,因此该部分数据的结果主要从统计意义与生物意义两个方面结合分析。在该部分本文发现URG算法在一定程度上可以减少假阳性,从生物意义角度对URG识别出的特异基因与GO条目进行了有效性验证,发现筛选出的很多基因都与相关疾病有非常密切的联系。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文