论文那些事—DECISION-BASED ADVERSARIAL ATTACKS:RELIABLE ATTACKS AGAINST BLACK-BOX MACHINE LEARNING MODELS

ATTACKS:RELIABLE ATTACKS AGAINST BLACK-BOX MACHINE LEARNING MODELS（ICLR2018）

1、摘要/背景

目前用于生成对抗扰动的大多数方法要么依赖于详细的模型信息（基于梯度的攻击)，要么依赖于置信度分数，例如类概率（基于分数的攻击)，这两种能力在大多数现实世界场景中都不可用。在许多此类情况下，人们目前需要退回到基于迁移的攻击，这些攻击依赖于繁琐的替代模型，而且需要访问训练数据并且可以防御。在这里，我们强调完全依赖于最终模型决策的攻击的重要性。这种基于决策的攻击是 (1) 适用于现实世界的黑盒模型，例如自动驾驶汽车；(2) 需要更少的知识，并且比基于迁移的攻击更容易应用； (3) 对于一些简单的防御来说，比基于梯度或基于分数的攻击更健壮。此类以前的攻击仅限于简单模型或简单数据集。

主要贡献：

我们强调基于决策的攻击是对抗攻击的一个重要类别，与现实世界的应用程序高度相关，并且对于衡量模型的鲁棒性很重要。
我们引入了第一个有效的基于决策的攻击，可扩展到复杂的机器学习模型和自然数据集。边界攻击 (1) 在概念上非常简单；(2) 非常灵活；(3) 几乎不需要超参数调整；(4) 在目标和非目标的计算机视觉场景中，可与最佳的基于梯度的攻击媲美。
我们表明边界攻击能够打破先前提出的防御方法（防御蒸馏)。
我们在 Clarifai.com 上提供的用于品牌和名人识别的两个黑盒机器学习模型上展示了边界攻击的实际适用性。

2、boundary attack-边界攻击

2.1 原理

边界攻击算法背后的基本原理如图所示：该算法从一个已经是对抗样本点初始化，然后沿着对抗和非对抗区域之间的边界执行随机游走，使得 (1) 它停留在对抗区域并且（2）减少了与目标图像的距离。换句话说，我们使用合适的提议分布 P 执行拒绝采样，以根据给定的对抗标准 c(.) 找到逐渐变小的对抗扰动。

输入：原始图片+对抗扰动准则，模型的决策

输出：满足条件最小的对抗样本

选择一个对抗样本作为初始点（start from a point that is already adversarial）;这里有个问题，初始的对抗样本如何获得？需不需要满足对抗样本的两个特征？人眼不可察觉和机器识别错误

然后进行随机游走（random walk），一方面要使得图片仍然是对抗样本；另一方面和原始图片的距离不能太远

以下是伪代码：

o指代原始输入（即一张图片）

y=F(o)指代模型F ( ⋅ ) 的全部输出（即logits或probabilities）

ymax指代预测的标签（即类别标签）

$\bar{o}$ 指代对抗扰动后的图片， $\bar{o}^{k}$ 指代攻击算法第k kk步处理过的扰动图片

2.2 初始化

如何选择初始点——这个问题其实论文中没有很清楚，边界攻击需要用一个已经是对抗的样本进行初始化。

在非目标攻击中，我们只是从给定输入的有效域 (如图片，则为[0,255]) 的最大熵分布中采样。
在目标场景中，我们从被模型分类为目标类的任何样本开始。
在CV中，因为图片约束在[0,255]，因此直接从[0,255]中均匀抽样得到初始点。（拒绝不是对抗样本的图片）

2.3 Proposal distribution

算法的效率关键取决于提议分布 P，即在算法的每个步骤中如何选择游走方向。最佳提议分布通常取决于要攻击的域和模型，但对于此处测试的所有与视觉相关的问题，一个非常简单的提议分布效果出奇地好。该提议分布背后的基本思想如下：在第 k 步中，我们希望从受以下约束的最大熵分布中绘制扰动 ηk：

1、扰动样本在输入域内：

2、扰动的相对大小为：

3、扰动将扰动图像与原始输入的距离减少了一个相对量 ϵ：

边界攻击只有两个相关参数：总扰动的长度 δ 和朝着原始输入的步长 ϵ 。根据边界的局部几何形状动态调整这两个参数。调整的灵感来自 Trust Region 方法。

2.4 Comparison with other attacks

后面一些实验结果不贴了...........太多了

3、总结

我们还介绍了该类别中第一个适用于通用机器学习算法和复杂自然数据集的有效攻击：边界攻击。边界攻击的核心是使用非常简单的拒绝采样算法结合简单的提议分布和受信任区域方法启发的动态步长调整来使其遵循对抗样本和非对抗样本之间的决策边界。它的基本操作原理为从一个大的扰动开始，然后依次减少。基本上颠倒了以前所有对抗攻击的逻辑。除了令人惊讶的简单之外，边界攻击在可能的对抗标准方面也非常灵活，并且在最小扰动的大小方面与标准计算机视觉任务的基于梯度的攻击相当。