基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例
Improved TF-IDF-based Keyword Extraction for Chinese Web Page: A Case Study of Web News
摘要结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对sharpICTCLAs分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词.实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词.
更多相关知识
- 浏览1
- 被引85
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



