文档名:面向中文文本分类的词级对抗样本生成方法
针对基于深度学习方法的中文文本分类模型的鲁棒性问题,文章提出一种词级黑盒对抗样本生成方法CWordAttacker.该算法采用定向词删除评分机制,能够在模型内部细节未知的情况下定位显著影响分类结果的关键词,并使用繁体、拼音替换等多种攻击策略生成与原句语义一致的对抗样本,可完成定向和非定向两种攻击模式.在情感、垃圾短信和新闻分类数据集上针对LSTM、TextCNN和带注意力的CNN模型进行测试的结果表明:CWordAttacker能够以较小的扰动大幅度降低靶机模型准确率.
作者:仝鑫 王罗娜 王润正 王靖亚
作者单位:中国人民公安大学信息网络安全学院,北京100038北京字节跳动科技有限公司,北京100000
母体文献:第35次全国计算机安全学术交流会论文集
会议名称:第35次全国计算机安全学术交流会
会议时间:2020年10月16日
会议地点:南宁
主办单位:中国计算机学会
语种:chi
分类号:
关键词:中文文本 分类模型 词级对抗样本生成 CWordAttacker算法 鲁棒性
在线出版日期:2022年1月20日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.28 MB
- 下载次数:
- 60
-
高速下载
|
|