首页 > 医疗卫生装备 > 基于大型语言模型的乳腺超声肿物分类算法优化研究

基于大型语言模型的乳腺超声肿物分类算法优化研究

Research on optimization of breast ultrasound mass classification algorithms based on large language models

二维码有效期 120s

摘要目的:为了提升乳腺超声肿物的分类性能,基于大型语言模型对乳腺超声肿物分类算法进行优化.方法:首先,选取乳腺超声数据集(BrEaST,v1.0)中252例患者的乳腺超声文字描述(恶性98例,良性154例),基于乳腺成像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)指南选取乳腺组织成分、皮肤增厚、肿物形态、后方回声、边界、声晕、回声强度和钙化8项特征,并将252例样本按7∶3的比例划分为训练集与测试集.以大型语言模型(ChatGPT 5.1 Thinking)自动生成Python代码,系统部署3种算法:将预设超参数的随机森林作为算法1,并作为基线算法;将预设超参数的随机森林结合针对名义变量的合成少数类过采样技术(synthetic minority oversampling technique for nominal,SMOTEN)作为算法2;将利用随机搜索调优的随机森林作为算法3.以病理良恶性为金标准,采用Friedman检验比较3种算法的总体差异,采用Nemenyi检验比较3种算法间的两两差异.通过人工编程对3种算法进行复现,采用Bootstrap自助法对测试集进行1000次重采样,比较人工编程实现的算法和大型语言模型实现的算法的性能指标差异.结果:Friedman检验结果表明,算法3在准确度(0.848)、敏感度(0.912)、F1分数(0.823)、AUC(0.895)4项评价指标中均为最优,3种算法的准确度、敏感度、F1分数、AUC比较差异均有统计学意义(P<0.05),3种算法的特异度比较差异无统计学意义(P>0.05).Nemenyi检验结果表明,算法3的准确度、敏感度、F1分数、AUC均优于算法1和算法2,差异有统计学意义(P<0.05),算法1和算法2各项指标比较差异均无统计学意义(P>0.05).大型语言模型生成代码实现的算法与人工编程实现的算法在各项性能指标上均表现出高度一致性,各项性能指标比较差异均无统计学意义(P>0.05).结论:大型语言模型可以提升乳腺超声肿物分类算法的性能,为临床医师的诊断和治疗提供了参考.