摘要目的:对医疗信息系统中存在的大量自由文本数据,进行非结构化和半结构化数据处理,使其能够被分析利用.方法:使用ETL工具完成数据抽取、加载、转换;NoSQL、HDFS提供安全的存储;Spark指标提取工具结合Spark计算引擎,使用以自然语言处理技术为基础的分词技术实现指标提取;NewSQL数据库用于存储解析后的结构化数据.结果及结论:通过这种方法,从医疗文本中提取出更多有价值的信息,使医疗文本能被充分利用,丰富了医疗数据分析的数据来源.
更多相关知识
- 浏览232
- 被引2
- 下载53

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



