基于多模型对比的生成式人工智能护理知识理解的测试研究
The testing research of generative artificial intelligence nursing knowledge understanding based on multi-model comparison
摘要目的 评估生成式人工智能大模型在护理教育中的适用性及性能差异.方法 选取主管护师资格考试真题(400题),基于科目分类(内科、外科等)、题干信息分类(知识记忆题、知识理解题等)、选项难度程度分类(简单选项题、一般选项题、复杂选项题)、题型特征分类(非病例题、病例题)、题干问题要求分类(积极选项题、消极选项题),对文心一言、DeepSeek、GPT-4进行多维度测试.结果 三大模型均具有优势科目,文心一言在护理管理、内科护理、儿科护理、妇科护理中正确率最高(91.43%、88.24%、88.10%、82.81%);DeepSeek在医院感染和外科护理中正确率最高(84.85%、80.43%);GPT-4在健康教育类题目中正确率最高(84.38%).此外,三大模型解答知识记忆类和临床案例题目的正确率最高(均>86%).然而,复杂选项题的正确率(78.26%、73.91%、73.91%)明显低于其他题型.结论 生成式人工智能可作为护理教育的辅助工具,但需结合人工校验与多模型协同机制优化逻辑推理能力.未来应通过专科知识库迭代与临床决策树融合提升复杂场景下的可靠性.
更多相关知识
- 浏览22
- 被引1
- 下载27

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



