摘要随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题.目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理.为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率.具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价.最后通过真实序列数据集验证了STALK算法的有效性、执行效率和可扩展性.
更多相关知识
- 浏览1
- 被引3
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



