基于矫正理解的中文文本对抗样本生成方法
Method for Generating Chinese Text Adversarial Examples Based on Rectification Understanding
摘要自然语言处理技术在文本分类、文本纠错等任务中表现出强大性能,但容易受到对抗样本的影响,导致深度学习模型的分类准确性下降.防御对抗性攻击是对模型进行对抗性训练,然而对抗性训练需要大量高质量的对抗样本数据.针对目前中文对抗样本相对缺乏的现状,提出一种可探测黑盒的对抗样本生成方法WordIllusion.在数据处理与计算模块中,数据在删除标点符号后输入文本分类模型得到分类置信度,再将分类置信度输入CKSFM计算函数,通过计算比较cksf值选出句子中的关键词.在关键词替换模块中,利用字形嵌入空间和同音字库中的相似词语替换关键词并构建对抗样本候选序列,再将序列重新输入数据处理与计算模块计算cksf值,最终选择cksf值最高的数据作为最终生成的对抗样本.实验结果表明,WordIllusion方法生成的对抗样本在多数深度学习模型上的攻击成功率高于基线方法,在新闻分类场景的DPCNN模型上相比于CWordAttack方法最多高出41.73个百分点,且生成的对抗样本与原始文本相似度很高,具有较强的欺骗性与泛化性.
更多相关知识
- 浏览2
- 被引12
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



