摘要目的:比较基于彩色眼底照相的深度学习模型和人工阅片在青光眼筛查中识别青光眼性视神经病变(glaucomatous optic neuropathy,GON)的性能,并探究深度学习模型的泛化能力和在青光眼筛查中应用的可行性。<br> 方法:一项横断面研究。从宁波市社区青光眼筛查成本和效果的随机对照试验中纳入9360名受试者右眼的彩色眼底照片。5名阅片师(人工阅片)和一种深度学习(Deep Learning,DL)模型分别对所有眼底照片进行二分类诊断(非GON和需转诊GON);并将分级阅片的结果作为金标准,来比较人工阅片和深度学习模型在青光眼筛查中的性能。将眼底图像按照质量分级(可读和合格)和不同GON诊断标准(可疑GON和确诊GON)分别进行亚组分析,来评价人工阅片和深度学习模型阅片对不同图像质量与不同GON诊断标准的眼底图像的性能。随机筛选200张眼底图像分别顺时针旋转90°(n=200)、水平翻转(n=200)和垂直翻转(n=200)后进行亚组分析,来评估深度学习模型对不同类型眼底图像的泛化能力。采用敏感性、特异性和受试者特征曲线下面积(the area under the receiver operating characteristic curve,AUC)来评价深度学习模型和人工阅片对眼底图像进行二分类诊断时的性能,并采用Cohen’s Kappa系数来评价观察者间的一致性。<br> 结果:深度学习模型和人工阅片识别需转诊GON的AUC分别为0.791(95%置信区间[Confidence Interval,CI]:0.777~0.805)和0.775(95%CI:0.759~0.791),通过DeLong检验进行比较,深度学习模型的表现优于人工阅片(P=0.046)。人工阅片和深度学习模型识别需转诊GON的敏感性分别为61.2%和75.0%;特异性分别为93.7%和83.1%。人工阅片对可读和合格眼底图像的AUC均为0.775,敏感性分别为61.3%和60.8%;特异性分别为93.6%和94.2%。DL模型对可读和合格眼底图像的AUC分别为0.787(95%CI:0.772~0.802)和0.797(95%CI:0.758~0.937),两者间差异无统计学意义(P=0.524)。DL模型对可读和合格眼底图像的敏感性分别为76.1%和68.8%;特异性分别为81.3%和90.6%。与分级阅片诊断为可疑GON的眼底图像相比,DL模型在识别分级阅片诊断为确诊GON的眼底图像时的表现更好(P<0.001),AUC从0.770(95%CI:0.753~0.786)增加至0.882(95%CI:0.863~0.901)。眼底图像顺时针旋转90°后,DL模型识别需转诊GON的AUC由0.813(95%CI:0.704~0.922)下降至0.785(95%CI:0.676~0.894,P<0.01)。眼底图像水平翻转(AUC=0.840,95%CI:0.739~0.942,P=0.24)和垂直翻转(AUC=0.812,95%CI:0.710~0.915,P=0.97)不会使DL模型识别需转诊GON的AUC降低。DL模型与金标准之间的一致性较弱,Kappa值为0.44(95%CI:0.43~0.45),5名人工阅片师与金标准之间的一致性范围为0.45~0.60。<br> 结论:深度学习模型在社区青光眼筛查中表现出能与人工阅片相媲美的性能。其更高的敏感性使其成为筛查青光眼性视神经病变患者的宝贵工具。深度学习系统在辅助检测青光眼性视神经病变方面表现出巨大的前景。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文