Lazy loaded image
技术分享
对抗净化(Adversarial Purification)
字数 2005阅读时长 6 分钟
2025-10-20
2025-10-22
type
status
date
slug
summary
tags
category
icon
password
😀
这里写文章的前言: 对抗净化(Adversarial Purification)问题起源于对抗攻击(Adversarial Attack).下文使用缩写AP与AA代替.

📝 SetUp

AA背景介绍

Szegedy等人发现了神经网络中一些有趣的现象[1]。神经网络学习到的知识并不连续,在计算机视觉领域(Computer Vision),我们可以通过给一张图像添加一些不易察觉的噪声使得基于神经网络的模型输出有很大的差异。比如,给一张“熊猫”的图像让模型进行分类,模型的输出结果也是“熊猫”,但可以给该图像添加一个轻微的“噪声”,使得图像看起来还是“熊猫”,但模型的输出结果却不再正确。如下图所示:
notion image
Goodfellow等人[2]基于以上发现提出对抗样本(Adversarial Examples)的概念,并给出一种构造对抗样本的方法FGSM。具体方式如上图所示,使用梯度方向生成噪声并直接在原图上添加该噪声。这种方法有一个好处,即可以直接调节来控制添加噪声的大小。这种方法添加的噪声也直接满足噪声无穷范数。自此开始,越来越多的研究聚焦于构造对抗样本,这种构建对抗样本来使得模型“失效”的方法被称为对抗攻击(Adversarial Attack)。
在AA背景介绍部分的结尾,我们再具体介绍比较有名的一些AA方法。
FGM[4]是一个单步过程,公式表示如下:
其中为构造的对抗样本,为原始的干净样本,为添加的噪声程度,后面一坨是梯度的归一化。值得注意的是,该方法添加的噪声满足2范数
FGSM[2]同样是一个单步过程,公式表示如下:
其中为构造的对抗样本,为原始的干净样本,为添加的噪声程度,后面一坨是梯度方向。
上述的单步过程不够鲁棒,Kurakin等人提出一种迭代的方法PGD[3],相当于FGSM的一种推广。公式表示如下:
其中为迭代次数,为每次迭代的步长,二者均为手动设置的超参数,其中一般被设为
显然,既然可以多步迭代,自然有人想到了动量法,即累计梯度。Dong等人提出MI-FGSM[5],该方法使用累计的梯度来引导构造噪声过程。公式表示如下:
其中为累计的梯度,为衰减因子,若则MI-FGSM退化为PGD[3]。
目前AA的研究在Loss方面,使用不同的Loss来提升AE的效果。

AP背景介绍

一个鲁棒的深度模型显然要尽量减少对抗样本(AE)的存在或者使得AE难以通过简单的迭代获得。Madry等人[6]提出可以在训练时在训练集中添加AE使得训练出来的模型更加鲁棒。但通过AA背景我们可以了解到AE的构建方式有很多,如果将所有的AE引入训练集这是不可能实现的。如果只引入特定AA构建的AE,那么模型针对该AA方法是鲁棒的,但无法防御别的AA方法。总而言之,目前针对AA的训练防御方法的普适性较差[7],且由于引入额外样本导致训练效率变低[8]。
相比之下,对抗净化(Adversarial Purification, AP)作为一种防御的方法依靠生成模型来“净化”对抗扰动样本需要的训练资源更少,也具有较高的鲁棒性[9,10]。AP旨在针对AE想办法去还原其原始的样本。直观的公式表示如下:
其中一般为一个生成模型。自从Diffusion Model(DM)[11]出现以后,目前对抗净化采用的生成模型逐渐被DM替代[12]。基于DM的对抗净化成为了近期研究的主流方法[13, 14, 16, 17, 18, 19]。本节主要介绍基于DM的AP Model开山之作DiffPure[12]。
DiffPure作为一种基于DM的对抗净化模型,其流程图如下:
notion image
DiffPure期望通过去噪过程将添加在原始图像上的噪声一并消除。并提供了模型的理论支撑。假设干净图像的样本分布为,对抗图像的样本分布为,那么在SDE过程中,二者的分布会逐渐靠近,当过程进行到终点的时候二者分布均变成高斯分布。DiffPure期望在SDE前向过程中到达某一步,该分布仍保留原始样本的语义信息又能将噪声信息平滑掉。然后从该步开始反向去噪,最终生成“干净”的样本。下图展示前向加噪后样本分布变化:
notion image
其实验结果也十分出色,甚至超过基于训练的防御方法。可视化也侧面证明了基于Diffusion Model净化图像的方式是可行的。
notion image
Pei等人[19]发现了对抗样本的一个规律,在高频部分上与原始图像有很大差异。如下图所示:
notion image
从图中可以发现图像攻击后与原始图像在高频部分有较大区别。因此,FreqPure[19]提出可以通过傅里叶变换将图像映射到频域后针对高频部分做平滑操作等处理后再通过逆傅里叶操作还原图像实现图像净化。
notion image
下图展示了FreqPure的净化效果:
notion image
可以看出FreqPure对图像的“伪影”去除的比较干净,但也使得图像过于“平滑”显得有一些模糊。

🤗 总结归纳

 

📎 参考文章

  1. Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks. ICLR, 2014.
  1. Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. ICLR, 2015.
  1. Kurakin A, Goodfellow I, Bengio S. Adversarial machine learning at scale. ICLR, 2017.
  1. Miyato T, Dai A M, Goodfellow I. Adversarial training methods for semi-supervised text classification. ICLR, 2017.
  1. Dong Y, Liao F, Pang T, et al. Boosting adversarial attacks with momentum. CVPR, 2018.
  1. Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks. ICLR, 2018.
  1. Laidlaw C, Singla S, Feizi S. Perceptual adversarial robustness: Defense against unseen threat models. ICLR, 2021.
  1. Wong E, Rice L, Kolter J Z. Fast is better than free: Revisiting adversarial training. ICLR, 2021.
  1. Samangouei P, Kabkab M, Chellappa R. Defense-gan: Protecting classifiers against adversarial attacks using generative models. ICLR, 2018.
  1. Yoon J, Hwang S J, Lee J. Adversarial purification with score-based generative models. ICML, 2021.
  1. Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models. NeurIPS, 2020.
  1. Nie W, Guo B, Huang Y, et al. Diffusion models for adversarial purification. ICML, 2022.
  1. Wang J, Lyu Z, Lin D, et al. Guided diffusion model for adversarial purification. arXiv, 2022.
  1. Wu Q, Ye H, Gu Y. Guided diffusion model for adversarial purification from random noise. arXiv, 2022.
  1. Kang M, Song D, Li B. Diffattack: Evasion attacks against diffusion-based adversarial purification. NeurIPS, 2023.
  1. Wang K, Fu X, Han Y, et al. DiffHammer: Rethinking the robustness of diffusion-based adversarial purification. NeurIPS, 2024.
  1. Song K, Lai H, Pan Y, et al. Mimicdiffusion: Purifying adversarial perturbation via mimicking clean diffusion model. CVPR 2024.
  1. Pei G, Lyu S, Chen G, et al. Divide and conquer: Heterogeneous noise integration for diffusion-based adversarial purification. CVPR 2025.
  1. Pei G, Ma K, Sun Y, et al. Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain. ICML, 2025.
 
上一篇
图像水印(Image Watermarking)
下一篇
图像水印(Image Watermarking)