摘要研究目的<br> 证候是中医学对人体病理状态认识的特有概念,是联系中医学理论和临床实践的核心。阴虚证作为最重要的基本证候之一,在历史的长河里不断发展,积累了大量的知识和经验。本研究旨在以中医古籍为数据来源,以阴虚证为核心,探索开发适用于中医古籍语义的知识表示方法和中医证候知识图谱构建的关键技术,构建集“医籍医家、理法方药、辨证论治”为一体的能够较为完整反映阴虚证特点的大型知识图谱,实现阴虚证知识资源的有效整合,优化中医证候古籍知识图谱构建路径。<br> 研究方法<br> (1)通过全面收集整理历代医家关于阴虚的论述,考辨“阴”“阴虚”“阴虚证”的内涵源流,并通过梳理分析其病因病机、临床表现、处方用药等在中医古籍中的具体表达,明确阴虚证相关古籍知识的研究范畴及数据筛选标准。<br> (2)通过对阴虚证相关古籍文献进行内容分析,梳理阴虚证知识体系,提取概念类型及概念关系,并复用《健康信息学中医药学语言系统语义网络框架》《中医临床术语系统分类结构》中的概念与关系,探索构建适用于阴虚证的知识图谱模式层。<br> (3)基于多个来源且结构完全不同的中医术语词表,首先进行文本提取、数据清洗和人工校对,然后用《中医临床诊疗术语》等对其进行标准词校正,最后合并多源数据的同义词,构建基于阴虚证的知识图谱模式层的自动标注词表和同义词表,以用于数据自动标注和知识融合。<br> (4)分析从《中华医典》提取的古籍文本数据特征,基于Java、MATLAB和HTML语言设计具备多种格式文本数据处理、可嵌套标注、标准词可视化修改、关系标注、自动提取标注实体功能的文本标注系统。<br> (5)基于建立的模式层、自动标注词表及文本标注系统,采用正则表达式与人工核对相结合的方式,对用于深度学习的命名实体识别训练数据进行分类标注;使用人机结合标注的训练数据对ERNIE(EnhancedRepresentationthroughKnowledgeIntegration)+CRF(ConditionalRandomFields)模型进行微调训练,将其用于阴虚证古籍文本的实体抽取;最后用同义词表结合人工的方式对实体抽取结果进行知识融合。<br> (6)对阴虚证古籍文本进行语法语境分析,结合对古代医家论述辨证论治过程和方剂合用、加减的语义特征分析,提出基于辨证论治实体组合与合用方组合双模式特征组合,结合阴虚证知识图谱模式层,基于双模式特征组合的实体组合抽取、基于知识图谱模式层概念关系的实体关系抽取、基于其他来源关系数据信息补充三个阶段递进式抽取和补充古籍文本的实体关系,有效提升知识图谱构建效率。<br> (7)提取知识抽取和知识融合的结果,进行实体和关系去重,使用图数据库Neo4j对知识进行存储;并通过查询进行知识的可视化展示。<br> 研究结果<br> (1)厘清“阴”“阴虚”“阴虚证”内涵,明确阴虚证相关古籍知识的研究范畴。通过对不同历史时期医家有关阴虚证的论述进行系统的梳理和辨析,确定了本研究阴虚证的研究范畴是指在人体阴阳整体层面,与阳虚证相对应,病机上有阴液亏虚不能制约阳气的特点,症状上有五心烦热、潮热盗汗等虚热表现。<br> (2)基于阴虚证构建具有中医证候知识表达特色的模式层。本研究共制定了“疾病”“症状”“舌象”“脉象”“病因病机”“病性要素”“病位要素”“分期”“时间”“治则治法”“中药”“方剂”“合用方”“体质”“年龄”“性别”“预后”“医家”“地理名称”“中医古籍”“成书朝代”“成书年”“条文ID”共23种概念类型;“治疗”“现象表达”“包含”“发生于”“引起”“影响”“相关”“使用”“处于”“适用于”“禁忌”“有预后”“记载于”“活动于”“论述”“组成是”“作者为”“著于”“基础方是”“基础方组成是”“基础方加”“基础方减”“加药依据”“减药依据”“合方依据”“引用”“条文来源是”“条文ID是”共28种概念关系;“中药剂量”1个关系属性。<br> (3)完成阴虚证相关知识的筛选和梳理。通过对《中华医典》导出的阴虚证相关条文进行筛选与补全,共得到阴虚证古籍条文21568条。<br> (4)构建阴虚证同义词表和自动标注词表。阴虚证同义词表包含疾病、症状等12种概念类型的标准词与同义词,共收录标准术语词15936个;阴虚证自动标注词表包含15种概念类型共100448个术语词。<br> (5)设计开发可处理多种格式文本数据的文本标注系统。采用词句标注与区间标注方式支持嵌套标注功能,并可在同义词表的支持下进行标准词提示、修改,具备单文本或条文内关系标注能力,并可自定义标签、配色等。基于文本标注系统,完成了本研究中命名实体识别训练语料的标注、知识融合和关系抽取结果校正等工作。<br> (6)基于ERNIE预训练模型,结合使用条件随机场CRF作为输出层,用人工标注语料进行命名实体识别微调训练,最高评价指标Fl1值达到0.94,完成了2万余条古籍文本中4万8千余个不重复实体的抽取。<br> (7)提出基于双模式特征组合的递进式实体关系抽取方法。根据中医辨证论治过程和合用方特征,限制条文内实体关系的表达范围,避免不必要的错误关系占用知识图谱空间,提高有效知识利用率,实现古籍条文中113万余条不重复关系的抽取。<br> (8)构建包含12万余个实体及118万余条关系的阴虚证古籍知识图谱。将实体抽取、关系抽取、知识融合的结果提取并进行实体和关系去重,用Neo4j图数据库进行中医古籍知识图谱库构建,将人机结合抽取的阴虚证关系数据以及同义词表的关系数据存储到Neo4j中,构建包含12万余个实体及118万余条关系的阴虚证古籍知识图谱。<br> (9)运用Cypher语言对知识图谱进行病因病机、疾病、症状、中药、方剂等内容的查询,并对查询结果进行了可视化表示和解读,说明了知识图谱在知识组织和表示上的可行性和便捷性。<br> 研究结论<br> (1)完成了阴虚证知识图谱构建,实现了阴虚证知识资源整合。制定包含23种概念类型、28种概念关系和I个关系属性的模式层,通过实体抽取、关系抽取,补充医籍医家信息、同义词表关系数据等,最终构建了包含12万余个实体及118万余条关系的阴虚证古籍知识图谱。实现了阴虚证古籍知识的可视化,提高了阴虚证知识的查询效率和准确性。<br> (2)构建了具有阴虚证知识特点的知识图谱模式层。基于对阴虚证概念的深度梳理和辨析,明确了本文研究的范围,通过对阴虚证相关古籍内容的分析,构建了覆盖阴虚证知识特点的概念类型和概念关系,在知识图谱构建过程中,有效支持了同义词表制定、训练语料标注、知识融合和关系抽取,准确表示了阴虚证知识体系框架。<br> (3)设计开发了适用于古籍的文本数据标注系统“CNLP文本标注系统”,在训练数据标注、实体标准化、关系抽取结果审核等过程中提供了稳定的可视化操作能力,提高了数据处理的效率。<br> (4)研It究了基于预训练模型ERNIE+CRF的命名实体抽取方法,验证了基于深度学习进行阴虚证古籍命名实体识别的可行性,实现了从大批量文本数据中抽取多类型、具有复杂构词特征的古籍文本实体,并用同义词表对抽取实体进行了知识融合,提高了阴虚证古籍知识图谱构建的效率。<br> (5)创新了实体关系抽取方法。对阴虚证古籍文献的语法语境和著述特征进行分析,提出了基于双模式特征组合的递进式实体关系抽取方法,避免了大量错误关系和重复关系占用知识图谱空间,提高了知识图谱中正确知识的占比和知识的可利用率。结果表明本研究构建的知识图谱模式层和提出的关系抽取方法在关系抽取中结合使用效果良好,本研究知识抽取方法在构建中医药证候古籍知识图谱中是可行的。
更多相关知识
- 浏览0
- 被引10
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文