您的账号已在其他设备登录,您当前账号已强迫下线,
如非您本人操作,建议您在会员中心进行密码修改

确定

基于整合组学的肿瘤分子分型研究

摘要:

恶性肿瘤是威胁人类健康的重要疾病之一。近年来肿瘤的发病率呈现上升趋势,死亡率也一直居高不下,而且患者人群越来越趋于年轻化。因此,对肿瘤的诊断和治疗的研究成为当前生命科学和医学领域最为迫切和重要的课题之一。传统临床上,主要根据组织病理学特征判断肿瘤的分类、分级和分期,并用于指导治疗方案的制定和预测患者的预后。可见,准确的肿瘤分型对于指导临床的诊断和治疗起着至关重要的作用。然而传统的肿瘤分型方法对患者预后的判断和治疗的指导并不完全准确,同一分型的患者即使采用相同治疗方案,其预后效果也往往相差很大。传统的以病理特征为基础的肿瘤分型方法,已不能适应现代肿瘤精准诊治的需要。实际上,肿瘤是一种分子水平高度异质的复杂疾病,通常肿瘤细胞在基因组、表观遗传组、转录组和蛋白质水平均会发生异常改变。以肿瘤细胞的分子特征为基础的分型,能够更为客观准确的反映肿瘤发生发展的内在本质特征。肿瘤分子分型研究的深入,不仅能够为临床提供更为准确的分型,而且有助于理解肿瘤不同亚型的内在分子机制、指导临床用药和预测患者预后。肿瘤的分子分型,作为个性化治疗的基石,将成为推动精准医疗实现的重要研究基础。<br>  得益于高通量测序技术的发展,肿瘤等疾病相关的组学数据得到了大量积累。基于单个组学的肿瘤分子分型研究已经在多个肿瘤类型中取得了一定的成果,特别是基于转录组的乳腺癌分子分型已经得到了临床的广泛认可。然而,肿瘤的异质性并不仅仅表现在一个组学层面,而是在基因组、转录组、表观遗传组等组学层面都存在差异。任意单一组学的数据,只能从单一视角反映肿瘤的内在分子特征,而整合多个组学的信息可以同时捕捉到肿瘤在不同组学上的异质性,识别更为准确的肿瘤分子分型。从多个组学层面全面了解和认识肿瘤成为肿瘤研究的一个新的趋势。<br>  最近十年间,致力于从大规模的肿瘤样本多组学数据中揭开癌症秘密的癌症基因组图谱项目(The Cancer Genome Atlas,TCGA)一共收录了34种肿瘤、约1万个患者样本的多组学数据。这些宝贵的肿瘤多组学数据为从多个组学层面了解肿瘤的发生和发展奠定了数据基础,同时为整合多组学分析带来了机遇和挑战。这里,我们希望从不同的整合分析方法入手来探索基于整合组学分析的肿瘤的分子分型。本文中我们分别从基于网络的整合和多组学的整合这两种整合方式入手开展了肿瘤分子分型研究。<br>  首先,我们希望借鉴已有的基于网络的整合分析方法—基于网络的分层(Network-based stratification,NBS)方法,同时引入长非编码RNA(long non-coding RNA,lncRNA)用于肿瘤的分子分型研究。基于网络的整合分析方法的核心是将分子网络中的相互关联信息与组学数据通过网络传播算法进行有机融合,然后将融合后的数据用于无监督聚类,进而得到肿瘤的分子分型结果。NBS方法成功地将蛋白相互作用网络信息和基因突变数据进行整合,有效地识别了与临床显著相关的肿瘤分子分型。然而,蛋白相互作用网络只包含蛋白编码基因,并没有考虑非编码RNA在肿瘤中的重要作用。lncRNA是近年发现的一类重要的调控非编码RNA,与肿瘤的发生发展有着密切的关系。为了系统地分析lncRNA与蛋白编码基因之间的调控关系,我们通过共表达网络分析方法构建了lncRNA-protein关联网络,并基于该网络整合蛋白质组学数据用于肿瘤的分子分型。我们以TCGA的乳腺癌(Breast invasive carcinoma,BRCA)人群样本为例,首先基于乳腺癌组织样本的转录组表达谱数据构建了乳腺癌特异的lncRNA-protein关联网络,然后借助 NBS的框架将关联网络与反相蛋白阵列(Reverse Phase Protein Array,RPPA)测得的蛋白表达数据相融合,最后基于融合后的数据矩阵利用保守的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法识别了6个乳腺癌亚型。这一分型结果与已知的PAM50分型和临床ER/PR/HER2分子标志物具有很高的相关性;进一步的蛋白表达分析表明不同乳腺癌亚型的蛋白表达模式也是显著不同的。这些结果表明,我们基于lncRNA-protein关联网络的整合分子分型方法能够有效地识别与临床和分子表达特征显著相关的肿瘤分子亚型。<br>  其次,我们提出了一个全新的整合多组学数据的聚类方法,并将该方法应用于肿瘤的分子分型。整合多组学数据的方法需要克服很多计算上的问题,如样本的数量远远小于特征的数量,不同组学来源的数据在收集、测序和度量等方面均存在较大差异,以及如何捕捉不同组学数据的互补性等等。本文中,我们首次提出了一个新的整合多组学数据的聚类方法—整合保守聚类(Integrated Consensus Clustering,ICC),该方法通过将不同类型不同尺度的数据转化成相同尺度的患者相似性矩阵,通过相似性矩阵的叠加实现不同组学信息的融合,不仅能够有效避免不同类型数据在特征规模和度量方法上的差异,而且可以有效地融合多组学数据的一致性和互补性。接下来,我们将ICC方法应用于来自TCGA的431例肾透明细胞癌(Kidneyrenal clear cell carcinoma,KIRC;亦称作clear cell Renal Cell Carcinoma,ccRCC)患者样本,整合了信使RNA(messenger RNA,mRNA)、微小RNA(microRNA,miRNA)和lncRNA三个不同类型的转录组表达谱数据用于聚类分析,识别了4个保守的ccRCC亚型。进一步分析表明,我们识别的亚型间有着显著不同的临床病理学特征、基因组变异特征和分子表达模式。此外,我们的整合转录组分型系统能够识别出临床上容易误判为ccRCC的其他RCC。这些结果不仅证明了我们的整合多组学方法ICC的有效性,同时提示了整合蛋白编码和非编码RNA能够识别更为准确的肿瘤分子分型。<br>  最后,我们对本文进行了总结和展望。本文主要围绕整合组学的肿瘤分子分型,从基于网路的整合和基于多组学数据的整合两个方面入手开展了研究。考虑到非编码RNA在肿瘤的发生发展中发挥了重要的调控作用,我们引入非编码RNA,首先采用基于网络的整合分析方法,基于lncRNA-protein关联网络整合蛋白质组数据识别了6个乳腺癌亚型,然后采用首次提出的ICC方法整合蛋白编码和非编码RNA的表达谱数据识别了4个ccRCC亚型。进一步的分析结果表明,本文研究中所介绍的两个整合分析方法都能够有效识别与临床特征和分子特征显著相关的肿瘤分子亚型。

更多
  • 浏览:20
  • 下载:13

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!