Lasso降维策略下SIS与MDS在乳腺癌转录组数据机器学习建模中的比较
Application of a dimensionality reduction strategy based on SIS and MDS and machine learning statistical modeling methods to breast cancer transcriptome data
摘要目的 探索以确定独立筛选(sure independence screening,SIS)与多维尺度变换(multi-dimensional scaling,MDS)为基础的 2 步降维策略,及以支持向量机(support vector machine,SVM)、随机森林(random forest,RF)和梯度推进机(gradient boosting machine,GBM)构建乳腺癌淋巴结转移风险预测的统计模型,为高危人群识别及早期干预提供科学依据.方法 采用SIS和MDS 作为初步降维方法,并以套索算法(least absolute shrinkage and selection operator,LASSO)为第2步降维方法,通过SIS+LASSO和MDS+LASSO的2步降维策略,将筛选的变量分别纳入SVM、RF和GBM 3种机器学习模型.使用受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)作为衡量模型预测性能的评价指标.结果 所有预测模型中,SIS+LASSO和MDS+LASSO 2步降维策略相对SIS和MDS单步策略在SVM、RF和GBM 3种预测模型下预测稳定性提升,运行时间和运行内存减少.MDS+LASSO 2步降维策略相对于MDS单步降维策略的预测精度提升.所有策略中,GBM的预测精度均高于SVM和RF.结论 在SIS与MDS基础上加入LASSO的2步降维策略,从运算速度、内存消耗、建模方法选择、预测精度等方面弥补了SIS和MDS单步降维的不足.对于不同的降维策略,GBM的预测性能均比SVM和RF好.
更多相关知识
- 浏览25
- 被引4
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



