首页 > 环境与职业医学 > 基于贝叶斯稀疏自编码器的蓄积性疲劳特征重构对机器学习模型预测制造业员工职业紧张的提升作用

基于贝叶斯稀疏自编码器的蓄积性疲劳特征重构对机器学习模型预测制造业员工职业紧张的提升作用

Boosting prediction of occupational stress among manufacturing employees by reconstructing cumulative fatigue features with Bayesian sparse autoencoder

摘要[背景]职业紧张已成为影响制造业从业人员身心健康的重要公共卫生问题.但研究人员往往采用"有/无"二分类变量评估其核心诱因——蓄积性疲劳,忽略了疲劳特征的高维复杂性和异质性,从而限制了职业紧张风险评估模型的精准度与预测效能.[目的]从数据驱动角度出发,通过对制造业员工的蓄积性疲劳调查样本数据重新进行分类,构建并验证职业紧张预测模型,提升职业紧张评估的效能.[方法]研究数据来源于 2021年中国疾病预防控制中心职业卫生与中毒控制所"长工时暴露及其不良健康效应风险评估"项目的 3 871名制造业员工的横断面调查数据.利用《职业紧张核心测量量表》评估职业紧张,《劳动者的疲劳蓄积度自我诊断调查表》评估蓄积性疲劳.使用Boruta方法从 20个职业紧张影响因素中筛选核心变量.使用贝叶斯稀疏自编码器对蓄积性疲劳特征进行降维,然后比较并应用聚类方法对降维后特征进行多分类划分.在此基础上,研究选取了逻辑回归、支持向量机、决策树、随机森林、自适应增强算法以及轻量级梯度提升机 6种机器学习分类模型,使用蓄积性疲劳结合其他 10个核心变量构建并比较了2种职业紧张预测模型:一类以原始蓄积性疲劳的二分类标签作为核心变量,另一类则以本研究提出的新疲劳分类标签作为核心变量.[结果]制造业员工职业紧张检出率为 38.9%,Boruta方法筛选出 11个职业紧张核心变量:抑郁症状、蓄积性疲劳、年龄、工龄、当前岗位工龄、周均工作时间、日均加班时间、月均收入、低水平锻炼、生活满意度、睡眠状况.贝叶斯稀疏自编码器将原蓄积性疲劳因子降维至12,K-means聚类将降维后得到的疲劳特征数据清晰聚类为"无/中度/高度疲劳"三分类.将蓄积性疲劳的三分类标签及其他 10个变量构建 6种职业紧张预测模型,结果显示:轻量级梯度提升机模型表现最好,曲线下面积(AUC)值为 0.78,准确率为 0.77,F1分数为 0.72;较纳入传统"有/无"二分类标签的蓄积性疲劳时模型的最佳预测AUC值(0.72)、准确率(0.66)和F1分数(0.65)分别提升了6%、11%和7%.[结论]蓄积性疲劳是影响制造业员工职业紧张的重要因素之一.对蓄积性疲劳特征进行数据降维和三分类聚类划分,能够有效提升所构建的职业紧张预测模型的效能.从数据驱动角度出发,使用机器学习方法在处理复杂数据、挖掘非线性关系以及依据关键因子数据进行预测上具有优势.本研究揭示对关键影响因素的精细化数据处理会有效增强机器学习模型对制造业员工出现职业紧张风险的预测效能.