Launching a Robust Backdoor Attack under Capability Constrained
Scenarios
解决问题:
本论文旨在解决深度学习模型中的后门攻击问题,即在正常情况下表现正常,但当输入中含有特定触发器时,会表现出恶意行为的模型安全问题。当前针对后门攻击的研究主要集中在提高触发器的隐秘性上,并且大多数方法需要攻击者具有强大的能力,如对模型结构的了解或对训练过程的控制,这些攻击是不切实际的,因为在大多数情况下,攻击者的能力是有限的。此外,模型的鲁棒性问题也没有得到足够的关注。
关键思路:
该论文提出了一种黑盒后门攻击方法,攻击者可以扮演图像标注者或图像提供者的角色,在没有参与训练过程或了解目标模型结构的情况下进行攻击。通过设计一个后门触发器,攻击仍然有效,即使在模型精简和图像扩充的情况下也能保持有效,从而使攻击更具威胁性和实用性。
其他亮点:
本论文的实验结果表明,该方法在黑盒场景下实现了高攻击成功率,并且能够规避最先进的后门防御系统。该论文的代码已经开源,实验使用了CIFAR-10和ImageNet数据集,并且在实验中使用了多个模型进行测试。这项工作值得进一步深入研究。
关于作者:
本文的主要作者是Ming Yi、Yixiao Xu、Kangyi Ding、Mingyong Yin和Xiaolei Liu。他们分别来自中国科学院软件研究所、清华大学计算机科学与技术系、南京邮电大学网络空间安全学院、中国科学院自动化研究所和南京大学计算机科学与技术系。他们之前的代表作包括:《基于深度强化学习的自适应视频流媒体质量优化》、《基于深度学习的无人机视觉目标跟踪》、《基于深度学习的网络空间安全态势感知研究》等。
相关研究:
最近的相关研究包括:《DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Learning》(作者:Xingjun Ma等,机构:澳大利亚国立大学)、《Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering》(作者:Wei Wang等,机构:南洋理工大学)等。
论文摘要:随着深度神经网络在关键领域的广泛应用,人们开始担心它们的安全问题。由于缺乏透明度,深度学习模型容易受到后门攻击的威胁。一种被毒化的后门模型在常规环境下表现正常,但在输入包含触发器的情况下会表现出恶意行为。目前的后门攻击研究主要集中在提高触发器的隐蔽性上,大多数方法需要攻击者具备强大的能力,例如了解模型结构或控制训练过程。这些攻击是不切实际的,因为在大多数情况下,攻击者的能力是有限的。此外,模型的鲁棒性问题也没有得到足够的关注。例如,模型蒸馏常用于简化模型大小,因为参数数量呈指数级增长,但大多数以前的后门攻击在模型蒸馏后失败了;图像增强操作可以破坏触发器,从而禁用后门。本研究探讨了在能力限制下实现黑盒后门攻击的方法。攻击者可以通过充当图像注释者或图像提供者来进行此类攻击,而无需参与训练过程或了解目标模型的结构。通过设计一个后门触发器,我们的攻击在模型蒸馏和图像增强后仍然有效,使其更具威胁性和实用性。我们的实验结果表明,我们的方法在黑盒场景中实现了高攻击成功率,并逃避了最先进的后门防御。