基于特征选择结合Boosting算法模型在预测矿工非致命性职业伤害严重等级中的适用性
Applicability of feature selection combined with Boosting algorithm in severity prediction of non-fatal occupational injuries in miners
摘要[背景]职业伤害影响因素的识别分析是特征选择的重要研究内容,随着机器学习算法兴起,特征选择结合Boosting算法模型构建可为职业伤害预测分析中提供新的分析思路.[目的]探讨基于Boosting算法模型在预测矿工非致命性职业伤害严重等级中的适用性,为科学合理地预测矿工非致命性职业伤害严重等级提供依据.[方法]应用美国矿山安全与健康管理局(MSHA)2001-2021年金属矿工非致命性职业伤害的公开数据,以损失工作日天数<105 d为轻伤、≥105 d为重伤作为结局变量.通过最小绝对收缩与选择算子算法(Lasso)回归、逐步回归、单因素+Lasso回归、单因素+逐步回归 4种特征选择方法分别筛选出 4个不同特征集.选择基于Boosting思想的梯度提升决策树(GB-DT)和极端梯度提升算法(XGBoost)两种模型,应用 4个特征集分别训练logistic回归、GBDT、XGBoost三种模型,共形成 12种矿工非致命性职业伤害严重等级预测模型,以获取预测模型的曲线下面积(AUC)、灵敏度、特异度、约登指数为主要评价指标.[结果]根据 4种不同特征选择方法,年龄、事故发生时间、总工龄、伤害发生原因、伤害发生活动、受伤部位、伤害性质、伤害结局 8个特征是影响矿工非致命性职业伤害严重等级的主要影响因素.单因素+逐步回归筛选的特征集 4为最优特征集并且其构建的GBDT模型对非致命性职业伤害严重等级预测效能最佳,特异度、灵敏度、约登指数分别为 0.7530、0.9490、0.7020.特征集4构建logistic回归、GBDT、XGBoost预测模型的AUC值分别为0.8526(95%CI:0.8387~0.8750)、0.8640(95%CI:0.8474~0.8806)、0.8603(95%CI:0.8439~0.8773),均比逐步回归筛选的特征集 2所构建的预测模型AUC值[0.8487(95%CI:0.8203~0.8669)、0.8110(95%CI:0.8012~0.8344)、0.8439(95%CI:0.8245~0.8561)]高,并且特征集 4构建 GBDT、XGBoost均比logistic回归预测模型AUC值高.[结论]两种特征选择方法比单一特征选择筛选的预测因子构建的预测模型性能更优.同时在最优特征集条件下,基于Boosting思想构建的非致命性伤害严重程度预测模型与传统逻辑回归预测模型相比性能更优.
更多相关知识
- 浏览10
- 被引2
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



