文档名:基于引导扩散模型的自然对抗补丁生成方法
摘要:近年来,物理世界中的对抗补丁攻击因其对深度学习模型安全的影响而引起了广泛关注.现有的工作主要集中在生成在物理世界中攻击性能良好的对抗补丁,没有考虑到对抗补丁图案与自然图像的差别,因此生成的对抗补丁往往不自然且容易被观察者发现.为了解决这个问题,本文提出了一种基于引导的扩散模型的自然对抗补丁生成方法.具体而言,本文通过解析目标检测器的输出构建预测对抗补丁攻击成功率的预测器,利用该预测器的梯度作为条件引导预训练的扩散模型的逆扩散过程,从而生成自然度更高且保持高攻击成功率的对抗补丁.本文在数字世界和物理世界中进行了广泛的实验,评估了对抗补丁针对各种目标检测模型的攻击效果以及对抗补丁的自然度.实验结果表明,通过将所构建的攻击成功率预测器与扩散模型相结合,本文的方法能够生成比现有方案更自然的对抗补丁,同时保持攻击性能.
Abstract:Adversarialpatchattacksinthephysicalworldhavegainedalotofattentioninrecentyearsduetotheirsafetyimplications.Existingworkhasmostlyfocusedongeneratingadversarialpatchesthatcanattackcertainmodelsinthephysicalworld,buttheresultingpatternsareoftenunnaturalandeasytoidentify.Totacklethisproblem,weproposeaguideddiffusion-basedapproachtonaturaladversarialpatchgeneration.Specifically,weconstructapredictorforattacksuccessrate(ASR)predictionbyparsingtheoutputofthetargetdetector,suchthatthereverseprocessofapre-traineddiffu-sionmodelcanbeguidedbythegradientoftheclassifiertogenerateadversarialpatcheswithimprovednaturalnessandhighASR.Weconductextensiveexperimentsinboththedigitalandthephysicalworldstoevaluatetheattackeffective-nessagainstvariousobjectdetectionmodels,aswellasthenaturalnessofgeneratedpatches.TheexperimentalresultsshowthatbycombiningtheASRpredictorwithapre-traineddiffusionmodel,ourmethodisabletoproducemorenaturaladver-sarialpatchesthanthestate-of-artapproacheswhileremaininghighlyeffective.
作者:何琨 佘计思 张子君 陈晶 汪欣欣 杜瑞颖 Author:HEKun SHEJi-si ZHANGZi-jun CHENJing WANGXin-xin DURui-ying
作者单位:武汉大学国家网络安全学院,湖北武汉430072;武汉大学空天信息安全与可信计算教育部重点实验室,湖北武汉430072武汉大学国家网络安全学院,湖北武汉430072;武汉大学空天信息安全与可信计算教育部重点实验室,湖北武汉430072;武汉大学日照信息技术研究院,山东日照276800武汉大学国家网络安全学院,湖北武汉430072;武汉大学空天信息安全与可信计算教育部重点实验室,湖北武汉430072;地球空间信息技术协同创新中心,湖北武汉430079
刊名:电子学报
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(2)
分类号:TP181
关键词:目标检测 对抗补丁 扩散模型 对抗样本 对抗攻击 深度学习
Keywords:objectdetection adversarialpatch diffusionmodel adversarialexample adversarialattack deeplearning
机标分类号:TP393.08TP18TJ611
在线出版日期:2024年4月19日
基金项目:基于引导扩散模型的自然对抗补丁生成方法[
期刊论文] 电子学报--2024, 52(2)何琨 佘计思 张子君 陈晶 汪欣欣 杜瑞颖近年来,物理世界中的对抗补丁攻击因其对深度学习模型安全的影响而引起了广泛关注.现有的工作主要集中在生成在物理世界中攻击性能良好的对抗补丁,没有考虑到对抗补丁图案与自然图像的差别,因此生成的对抗补丁往往不自然...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于引导扩散模型的自然对抗补丁生成方法 A Guided Diffusion-based Approach to Natural Adversarial Patch Gen-eration
基于引导扩散模型的自然对抗补丁生成方法.pdf
- 文件大小:
- 2.05 MB
- 下载次数:
- 60
-
高速下载
|