摘要探讨电子病历中事件之间的时间关系是生物医学信息学中的一个重要问题,其结果可以揭示病人即将发生的疾病状况。因此,对电子病历数据的数据挖掘工作具有相当广阔的研究前景,可以为医护工作者提供参考以及辅助诊疗决策。不同于以往从基于时间间隔的事件数据中挖掘序列模式,本文基于时间节点上的标称型医疗数据,优化了序列模式挖掘算法,并取得了较好的效果。我们还基于真实世界的医疗数据将模式挖掘所得到的频繁模式作为疾病发病风险预测模型的额外特征输入,提高了预测模型的性能。所做的主要工作包括:<br> (1)提出了一种时序依赖模式挖掘算法。<br> 在序列模式挖掘算法的基础上,我们使用了基于时间节点上的标称型医疗数据,提出了基于位示图表示的时序约束序列模式挖掘算法,具有较好的挖掘效率。<br> (2)构建了基于医疗数据的时序频繁模式挖掘框架。<br> 针对时间节点上的标称型医疗数据,我们提出了一个完整的模式挖掘流程,包括序列生成器、序列预处理器、序列频繁模式挖掘以及Bag-of-pattern向量生成器,对于序列较长且复杂的数据集具有较好的实用性。<br> (3)在真实世界的医疗数据集上进行预测建模以及发病风险预测应用。<br> 我们将挖掘得到的频繁模式作为额外的特征,将其应用在充血性心力衰竭的数据集上进行发病风险预测,并进行评估。实验结果表明,通过添加这些序列模式特征作为机器学习预测模型的额外输入,预测性能可以显著提高。
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



