摘要由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.
更多相关知识
分类号
TP391.43
栏目名称
DOI
10.3969/j.issn.1673-0291.2010.02.025
发布时间
2010-05-31
基金项目
科技部科研项目(2006CB504601);
国家科技支撑计划(2007BA110B06-01);
国家自然科学基金(90709006);
北京市科委科研攻关项目(D08050703020804);
北京交通大学科技基金(2007RC072)
- 浏览0
- 被引96
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文