摘要目的 针对传统中药产地溯源主观性强、效率低等问题,探索基于中红外光谱(mid-infrared spectroscopy,MIRS)结合机器学习算法模型的中药产地溯源方法,为中药产地溯源提供新的技术支撑.方法 以中红外光谱数据集为基础,对中药材的中红外光谱数据进行异常值处理、空缺值填充、一阶差分、高方差特征筛选、距离计算与分组分析及局部线性嵌入算法(locally linear embedding,LLE)等预处理,构建支持向量机(support vector machine,SVM)、随机森林(random forest,RF)、轻量级梯度提升机(light gradient boosting machine,LightGBM)、K-最近邻(K-nearest neighbor,KNN)、极端梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural network,ANN)6种机器学习模型,并利用常青藤优化算法(Ivy algorithm,IVYA)优化模型参数,构建受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)与准确率、召回率、精准率、F1 分数(F1 score,F1)的多维度评价指标体系,探讨适合中药产地溯源的最优模型.结果 SVM(宏平均AUC=0.998、F1=0.949、准确率 0.949、召回率 0.949、精确率0.956)与ANN(宏平均AUC=0.999、F1=0.940、准确率 0.939、召回率 0.939,精确率 0.944)在中药材产地的识别上表现最优,对未知样本的产地预测结果具有较高一致性,且二者核心评价指标值显著高于 RF、LightGBM、KNN、XGBoost.SVM 模型可精准捕捉不同产地药材中等化学成分的官能团振动差异,ANN 模型可模拟中药产地形成的多因素非线性耦合效应,2 种模型不仅实现了 11 个产地的高效区分,还具有互补性,SVM的全局最优分类面适合处理光谱特征差异显著的产地,而ANN的分布式表征能力更适用于特征重叠度高的复杂场景.MIRS结合SVM与ANN的方法,在中药产地溯源上具有快速、无损、高通量的优势,这为道地药材的规模化产地溯源提供了客观化工具,为中药产业的现代化发展提供了可落地的技术路径.结论MIRS结合SVM、RF、LightGBM、KNN、XGBoost、ANN用于中药产地溯源具有有效性,其中SVM与ANN可作为中药产地溯源的首选模型,可为中药产地溯源提供跨学科方案,未来可整合多模态数据及深度学习技术提升模型性能.
更多相关知识
- 浏览1
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



