首页 > 中国眼耳鼻喉科杂志 > 多模态信息融合技术在声带病变的诊断及报告生成的应用研究

多模态信息融合技术在声带病变的诊断及报告生成的应用研究

Multimodal technology for diagnosis of vocal cord lesions and automatic report generation

二维码有效期 120s

摘要目的探讨基于深度学习的多模态信息融合技术(MIFRL模型)在声带病变诊断及报告自动生成中的应用价值.方法回顾性收集 2019 年 1 月—2022 年 12 月我院和广安市人民医院符合标准的 1 867 例电子喉镜检查资料(含图像及对应诊断报告),涵盖正常、白斑、息肉、癌变4 种类别.构建融合图像信息与文字描述信息的多模态信息融合识别模型(MIFRL模型),经训练后在测试集上验证其性能;通过与其他深度学习识别模型对比多属性分类能力,并与低年资住院医师的判读结果对比,评估模型的准确性和有效性.结果 MIFRL模型对 4 种类别的平均精确度、敏感度、特异度、预测准确率分别为 90.3%、85.3%、95.2%、85.6%.与其他深度学习模型相比,该模型多属性分类能力更优,且可生成模式化文字报告;与低年资住院医师的判读结果相比,其预测准确率在各疾病分组中均更高,其中白斑组、癌变组的差异具有统计学意义(P＜0.05),优势显著.结论 MIFRL模型在声带病变诊断中准确率较高,能够提供客观的病变识别结果和属性描述,具有临床应用潜力.