摘要目的:软组织肉瘤是一种分类繁多、复杂多变的间充质来源的罕见恶性肿瘤。按照是否具有特殊的遗传改变,其可分为单一核型和复杂核型软组织肉瘤。相对于后者,前者更容易找到能够适用于诊断和治疗的有效分子标志物(如胃肠间质瘤)。而复杂核型软组织肉瘤因其组织亚型分类复杂、异质性高、侵袭性强、缺乏特殊遗传变异的特点,对其的诊断和治疗仍然是当今临床实践的难点与挑战。随着高通量测序技术的发展,使得复杂核型软组织肉瘤的分子表达模式更加清晰展现出来。已有研究表明不同组织亚型之间具有相似的表达模式,而同一组织亚型内却表现出不同的特点。因此,本研究旨在通过挖掘复杂核型软组织肉瘤多组学数据(基因组、转录组和表观基因组学)的内在相似性,识别分子亚型,寻找分子亚型特异的关键分子或通路,并建立分子亚型预测模型,为分子标志物的选择或发病机制的研究提供参考。<br> 方法:(1)从TCGA数据库中下载复杂核型软组织肉瘤的多组学数据(RNAseq、miRNAseq、Methylation和CNV)及临床特征数据,经数据预处理后,通过相似性网络融合分析整合四种组学数据,采用谱聚类分析识别分子亚型,并探究分子亚型与临床因素的关系;(2)基于新划分的分子亚型,结合多种生物信息分析方法识别亚型特异的分子或通路。首先以加权基因共表达网络分析(WGCNA)鉴别与分子亚型显著相关的基因模块,从中筛选hub基因,并通过生存分析和log-rank检验分析hub基因表达水平对总体生存时间的影响。基于模块基因,从中筛选亚型特异的差异表达基因,并以此进行路径富集分析。其次,以ESTIMATE程序包和CIBERSORTx工具评估每一样本肿瘤微环境免疫浸润水平及免疫细胞构成,以期寻找免疫相关亚型。紧接着,利用QDMR工具识别分子亚型特异的差异甲基化区域,并分析差异甲基化区域对应基因的甲基化水平对基因表达的影响程度,结合抑癌基因库筛选亚型特异的抑癌基因。最后,Gistic2软件鉴别重复拷贝数变异区域,并分析hub基因表达水平与拷贝数变异的相关性。(3)采用LASSO和Boruta两种方法筛选与反应变量(分子亚型)相关的分子特征,以筛选出的分子特征集分别建立回归模型和支持向量机分类模型以预测分子亚型,并以准确率和宏F1值为指标评估模型性能。<br> 结果:(1)最终获得5类组织亚型,共240例复杂核型软组织肉瘤相关数据,包括57例去分化脂肪肉瘤、24例黏液纤维肉瘤、9例恶性周围神经鞘瘤、101例平滑肌肉瘤(74软组织平滑肌肉瘤和27例子宫平滑肌肉瘤)以及49例未分化多形性肉瘤。经无监督聚类分析将所有样本划分为5类分子亚型,以C1~C5表示。C2均由平滑肌肉瘤组成(15例子宫平滑肌肉瘤和50例软组织平滑肌肉瘤)。C3主要由去分化脂肪肉瘤(25)、黏液纤维肉瘤(14)及未分化多形性肉瘤(17)组成。生存分析表明C2和C3生存时间优于C1和C4。(2)WGCNA划分了7个基因模块(以颜色表示),其中蓝色模块和红色模块分别与C2(r=0.9)和C3(r=0.76)显著相关,并从中筛选出21个蓝色和5个红色hub基因。蓝色hub基因中FSCN1、PGD、ASB2、MYH11、MRVI1和PGM5基因表达量显著影响总体生存时间,而红色hub基因均不影响。C2差异上调基因显著富集扩张性心肌病、血管平滑肌收缩、cGMP-PKG等与肌肉收缩相关的信号通路;C3差异上调基因显著富集于ABC转运、干细胞多能性调节、人类乳头瘤病毒感染、PI3K-AKT等信号通路。与其他亚型相比,C5具有最高的免疫评分(P<0.0001)和免疫检查点相关基因(PD-1和PD-L1)高表达,其免疫微环境中调节性T细胞、CD8T细胞、残留的记忆CD4T细胞和单核细胞构成比例更高,而浆细胞、初始B细胞及记忆B细胞浸润比例更低。按照中位免疫评分组,高免疫评分组总体生存时间优于低免疫组(P=0.026)。C2和C4具有较多的差异甲基化区域,分别为508和179。LOC728264、CMTM7、THY1、CRYAB等10个基因表达水平与甲基化水平呈负相关关系(P<0.05)。THY1是为人熟知的肿瘤抑制基因,且其对应甲基化位点(探针cg13524082)在C2中呈高甲基化状态。从总体来看,37.1%的样本染色体12q15发生扩增,而72.5%和50.8%的样本发生13q14.2和17p13.1缺失。而在C2中,仅有1.5%(1/65)出现12q15扩增。CPM、MDM2、SYNM、AKAP1、ABCA9及CRYAB基因表达水平与拷贝数变异程度有关。(3)基于Boruta的支持向量机模型预测准确率(0.842)和宏F1值(0.832)高于LASSO回归模型(0.821和0.793),但前者在特征选择阶段花费时间更多(4.96min),所用特征数目(96)同样高于后者(79)。<br> 结论:240例复杂核型软组织肉瘤被划分为5种分子亚型。C2均为平滑肌肉瘤,且预后更优,FSCN1、PGD、ASB2、MYH11、MRVI1和PGM5可作为其预后标志物,THY1表达量受到甲基化水平的调控,可能是C2的潜在抑癌基因。C3可能与HPV感染相关。C4具有更多的差异甲基化区域,CRYAB可能是C4关键作用因子,其表达水平受到甲基化程度和拷贝数变异的双重调控。C5是一种免疫相关亚型,其免疫浸润水平最高,同时免疫抑制细胞(Tregs)和分子(PD-1和PD-L1)在其中高浸润和高表达。若不考虑计算或时间成本,基于Boruta的支持向量机分类器性能较优。总之,本研究构建了5种分子亚型,分析了每一亚型的分子特征,并识别了亚型特异的预后标志物或抑癌基因,建立了分子亚型预测模型,为今后进一步研究提供参考。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文