通用评估神经网络鲁棒性方法—CLEVER

引言

神经网络鲁棒性评估一直是深度学习领域中一个热门的研究方向，该论文是通用评估神经网络鲁棒性方法的开山之作。作者将神经网络鲁棒性问题转换成局部Lipschitz常数的估计问题，并利用极值理论方法进行评估，进而提出了一种度量神经网络鲁棒性的通用方法-CLEVER，该方法可以对不可知的攻击方式进行评估，并且对于大规模的神经网络计算成本较少。该论文涉及到大量的数学推导，需要沉下心来慢慢琢磨。

论文链接：https://arxiv.org/abs/1801.10578v1

数学符号介绍

假定 $f:\mathbb{R}^{d}\rightarrow\mathbb{R}^K$ 表示的是一个神经网络分类器，其中 $d$ 表示输入空间的维度， $K$ 表示的是输出空间的维度。 $x_0 \in \mathbb{R}^d$ 表示干净的输入样本， $x_a$ 表示对抗样本， $\delta=x_a-x_0$ 表示的是对抗扰动， $\|\cdot\|_p$ 表示的 $p$ 范数，其中 $p\ge 1$ 。 $\Delta_{p,\mathrm{min}}$ 表示的是最小的对抗扰动。 $\beta_L$ 表示的是对抗扰动的上界， $\beta_U$ 表示的是对抗扰动的下界。 $L_q^j$ 表示的是Lipschiz常数， $L^j_{q,x_0}$ 表示的是局部Lipschitz常数。 $B_p(x_0,R)$ 表示的以干净样本 $x_0$ 为中心，半径为 $R$ 的球体。 $\mathrm{CDF}$ 表示的是累积分布函数。

分类器鲁棒性的保证分析

本文作者对神经网络分类器的鲁棒性给出了严格的数学定理的形式，并且该定理只需要一个很宽泛的假设，即分类器函数是Lipschitz连续的。

定义1（扰动样本和对抗样本）： 给定一个输入向量 $x_0\in \mathbb{R}^d$ ，该样本对应的类别为 $K$ 类，分类函数为 $f:\mathbb{R}^d \rightarrow \mathbb{R}^K$ ，预测类别为 $c(x_0)=\argmax\limits_{1\le i \le K} f_i(x_0)$ 。假设 $x_a$ 是一个干净样本 $x_0$ 的一个扰动样本，则存在扰动 $\delta \in \mathbb{R}^d$ ，有 $x_a=x_0+\delta$ ，其中 $\Delta_p = \|\delta\|_p$ 。对抗样本则是能够使得分类器预测标签 $c(x_a)$ 出错的扰动样本。无目标攻击特指找到一个对抗样本 $x_a$ ，且有 $c(x_a)\ne c(x_0)$ 。有目标攻击特指找到一个对抗样本 $x_a$ 使得分类器预测的标签为 $c(x_a)=t$ ，其中 $t\ne c(x_0)$ 。

定义2（最小对抗扰动）： 给定一个输入向量 $x_0$ 和分类器 $f$ ， $x_0$ 的最小的 $\ell_p$ 对抗扰动表示为 $\Delta_{p,\mathrm{min}}$ 。

定义3（ $\Delta_{p,\mathrm{min}}$ 下界）： 假定 $\Delta_{p,\mathrm{min}}$ 为样本 $x_0$ 的最小对抗扰动，则 $\Delta_{p,\mathrm{min}}$ 下界表示为 $\beta_L$ ，其中 $\beta_L\le \Delta_{p,\mathrm{min}}$ ，如果对于任意样本 $x_0$ 的扰动样本有 $\|\delta\|_p \le \beta_L$ ，则该扰动样本不是对抗样本。

定义4（ $\Delta_{p,\mathrm{min}}$ 上界）： 假定 $\Delta_{p,\mathrm{min}}$ 为样本 $x_0$ 的最小对抗扰动，则 $\Delta_{p,\mathrm{min}}$ 上界表示为 $\beta_U$ ，其中 $\beta_U\ge \Delta_{p,\mathrm{min}}$ ，进而存在一个样本 $x_0$ 的对抗样本有 $\|\delta\|_p \ge \beta_U$ 。

对于任何对抗攻击其最小对抗扰动的上界 $\beta_U$ 是很容易被发现的，但是下界 $\beta_L$ 却不容易找到。 $\beta_L$ 保证了对于任意 $\|\delta\|_p\le \beta_L$ 的扰动神经网络分类器都是鲁棒的。

引理1（Lipschitz连续和梯度范数关系）： 令 $\subset \mathbb{R}^d$ 是一个凸有界闭集，并且令 $h(x):S\rightarrow \mathbb{R}$ 是一个在包含区域 $S$ 的开集中连续可微函数。如果 $h (x)$ 是一个有Lipschitz常数 $L_q$ 的Lipschitz函数，则对于任意 $x,y\in S$ ，以下不等式成立 $|h(x)-h(y)|\le L_q\|x-y\|_p$ 其中 $L_q=\max\{\|\nabla h(x)\|_q:x\in S\}$ ， $\nabla h(x)=(\frac{\partial h(x)}{\partial x_1},\cdots,\frac{\partial h(x)}{\partial x_d})^{\top}$ 是 $h (x)$ 的梯度，并且有 $\frac{1}{p}+\frac{1}{q}=1$ ， $1\le p,q\le \infty$ 。

证明： 对于给定任意的 $x$ 和 $y$ ，令 $d=\frac{y-x}{\|y-x\|_p}$ 表示的是 $x$ 指向 $y$ 的单位向量，其中有 $r=\|y-x\|_p$ 。定义一个一元函数 $u (z) = h (x + z d)$ ，并且有 $u (0) = h (x)$ ， $u (r) = h (y)$ ，可知 $D^{+}h(x+zd;d)$ 和 $D^{+}h(x+zd;-d)$ 分别表示的是 $u (x)$ 的右导数和左导数，进而则有 $u^{\prime}(z)=\left\{\begin{array}{ll}D^{+}h(x+zd;d)\le L_q& \mathrm{if}\text{ }D^{+}h(x+zd;d)=D^{+}h(x+zd;-d)\\\mathrm{undefined}&\mathrm{if}\text{ }D^{+}h(x+zd;d)\ne D^{+}h(x+zd;-d)\end{array}\right.$ 对于ReLU网络，至少有有限个点 $z\in(0,1)$ 使得 $g^{\prime}(z)$ 。这是因为每个不连续的 $z$ 都是由某些ReLU激活引起的，并且只有有限个组合，令这些点为 $0=z_0<z_1<\cdots < z_{k-1}<z_k=1$ ，在每个区间上分别使用微积分的基本定理，则对于每个 $i$ ，存在 $\bar{z}_i\in(z_i,z_{i-1})$ $\begin{aligned}u(r)-u(0)& \le \sum\limits_{i=1}^k |u(z_i)-u(z_{i-1})|\\&= \sum\limits_{i=1}^k |u^{\prime}(\bar{z}_i)(z_i-z_{i-1})|\\ & \le \sum\limits_{i=1}^k L_q|z_i-z_{i-1}|\\ &= L_q\|x-y\| \end{aligned}$

定理1（无目标攻击下界 $\beta_L$ ）： 令 $x_0\in \mathbb{R}^d$ ， $f:\mathbb{R}^d\rightarrow \mathbb{R}^K$ 是一个多分类器，其中 $f_i$ 是连续可微的，令 $c=\argmax\limits_{1\le i \le K}f_i(x_0)$ 表示的是分类器预测样本 $x_0$ 的类别。对于所有 $\delta \in \mathbb{R}^d$ ，则有 $\|\delta\|_p \le \min\limits_{j \ne c}\frac{f_c(x_0)-f_j(x_0)}{L^j_q}$ 其中 $\argmax\limits_{1 \le i \le K}f_i(x_0+\delta)=c$ ，且有 $\frac{1}{p}+\frac{1}{q}=1$ ， $1\le p,q \le \infty$ 。 $L_q^j$ 是函数 $f_c(x)-f_j(x)$ 在 $\ell_p$ 范数的Lipschiz常数。换言之， $\beta_L=\min\limits_{j\ne c}\frac{f_c(x_0)-f_j(x_0)}{L^j_q}$ 是最小的扰动下界。

证明： 根据引理1可知，假定 $g(x):=f_c(x)-f_j(x)$ 是一个有Lipschitz常数 $L^j_q$ 的Lipschitz连续的函数，则有 $|g(x)-g(y)|\le L^j_q \|x-y\|_p$ 令 $x=x_0+\delta$ 和 $y=x_0$ ，可以得到 $|g(x_0+\delta)-g(x_0)|\le L^j_q \|\delta\|_p$ 其中可以将上面公式化简为以下形式 $g(x_0)-L^j_q\|\delta\|_p \le g(x_0+\delta)\le g(x_0)+L^j_q \|\delta\|_p$ 当 $g(x_0+\delta)=0$ 时，此时对抗样本被发现。根据上公式， $g(x_0+\delta)$ 的下界为 $g(x_0)-L^j_q\|\delta\|_p$ 。如果 $\|\delta\|_p$ 是足够的小以至于 $g(x_0)-L^j_q\|\delta\|_p \ge 0$ ，则此时没有对抗样本生成 $g(x_0)-L_q^j\|\delta\|_p \ge 0 \Longrightarrow \|\delta\|_p \le \frac{g(x_0)}{L^j_q}\Longrightarrow \|\delta\|_p \le \frac{f_c(x_0)-f_j(x_0)}{L^j_q}$ 为了能够达到 $\argmax\limits_{1 \le i \le K}f_i(x_0+\delta)=c$ ，取在 $g\ne c$ 上，取 $\|\delta\|_p$ 上界的最小值，则有 $\|\delta\|_p \le \min\limits_{j\ne c}\frac{f_c(x_0)-f_j(x_0)}{L^j_q}$
定理1的一维情况的直观图如下所示，函数 $g(x)=f_c(x)-f_j(x)$ 在 $x_0$ 附近的值位于由两条线通过 $x_0,g(x_0))$ 形成的双圆锥内，斜率等于 $±Lq \pm L_q$ ，其中 $L_q$ 表示的是函数 $g (x)$ 在点 $x_0$ 附近的Lipschitz常数。换句话说， $g (x)$ 在 $x_0$ 附近的函数值，即 $g(x_0+\delta)$ 可以由 $g(x_0)$ 、 $\delta$ 和Lipschitz常数 $L_q$ 所限定。当 $g(x_0+\delta)$ 减小到 $0$ 时，则此时会发现一个对抗样本， $\delta$ 的最小变化为 $\frac{g(x_0)}{L_q}$ 。

注意1： $L_q^j$ 是包含交叉项 $f_c(x)-f_j(x)$ 函数的Lipschitz常数，进而可以称为交叉Lipschitz常数。

推论1（无目标攻击 $\beta$ 的形式化保证）： 令 $L_{q,x_0}^j$ 是函数 $f_c(x)-f_j(x)$ 在点 $x_0$ 处的局部Lipschtiz常数， $x$ 的取值范围为 $B_p(x_0,R)=\{x\in\mathbb{R}|\|x-x_0\|_p \le R\}$ 且 $\delta \in B_p(0,R)$ 。由定理1可知，可以得到 $\|\delta\|_p \le \min\left\{\min\limits_{j \ne c} \frac{f_c(x_0)-f_j(x_0)}{L^j_{q,x_0}}\right\}$

推论2（有目标攻击 $\beta$ 的形式化保证）： 令 $L_{q,x_0}^j$ 是函数 $f_c(x)-f_j(x)$ 在点 $x_0$ 处的局部Lipschtiz常数， $x$ 的取值范围为 $B_p(x_0,R)=\{x\in\mathbb{R}|\|x-x_0\|_p \le R\}$ 且 $\delta \in B_p(0,R)$ 。对于给定的目标类别 $j$ ，则有 $\|\delta\|_p \le \min\left\{\frac{f_c(x_0)-f_j(x_0)}{L^j_{q,x_0}},R\right\}$

进一步可以将定理1扩展成不可微的函数的特例，比如ReLU激活函数。在这种情况下，引理1中使用的Lipchitz常数可以是替换为方向导数的最大范数。

引理2:（ReLU网络 $\beta_L$ 的形式保证）： 令 $h(\cdot)$ 是一个 $l$ 层ReLU神经网络，第 $i$ 层的权重为 $W_i$ ，其中忽视偏差项 $h(x)=\sigma(W_l(\sigma(W_{l-1}\cdots \sigma(W_1x)))$ 其中 $\sigma(u)=\max(0,u)$ 。令 $S\subset \mathbb{R}^d$ 是一个凸闭包集合，如果 $h (x)$ 是Lipschitz连续，则以下等式成立 $L_q=\sup\limits_{x\in S}\{|\sup\limits_{\|d\|=1}D^{+} h(x;d)|\}$ 其中 $D^{+}h(x;d)=\lim\limits_{t\rightarrow 0^{+}}\frac{h(x+td)-h(x)}{t}$ 是单向导数，则此时定理1，推论1，推论2都成立。

基于极值理论估计 $L_{q,x_0}^j$

定理2（Fisher-Tippett-Gnedenko）： 如果存在一序列实数对 $a_n,b_n)$ 使得 $a_n>0$ ， $\lim\limits_{n \rightarrow \infty}F^n_Y(a_n y +b_n)=G(y)$ ，其中 $G$ 是一个非退化分布函数，则由如下公式成立 $\mathrm{Gumbel\text{ } class}\text{ }(\mathrm{Type}\text{ }\mathrm{I}):\text{ }G(y)=\exp\{-\exp [-\frac{y-a_W}{b_W}] \},\text{ }y\in \mathbb{R}$ $\mathrm{Frechet\text{ }class \text{ }(Type \text{ }II)}:\text{ }G(y)=\left\{\begin{array}{ll}0,&\mathrm{if}\text{ }y< a_W,\\ \exp\left\{-(\frac{y-a_W}{b_W})^{-c_W}\right\},&\mathrm{if}\text{ }y\ge a_W,\end{array}\right.$ $\mathrm{Reverse\text{ }Weibull\text{ }class\text{ }(Type\text{ }III):}\text{ }G(y)=\left\{\begin{array}{ll}\exp\{-(\frac{a_W - y}{b_W})^{c_W}\},&\mathrm{if}\text{ }y<a_W,\\1,&\mathrm{if}\text{ }y\ge a_W \end{array}\right.$ 其中 $a_W\in \mathbb{R}$ ， $b_W >0$ ， $c_W >0$ 分别是位置，尺寸和形状参数。

定理2意味着样本的最大值遵循以上三个分布族中的一个。如果 $g (x)$ 有一个有界的Lipschitz常数， $\|\nabla g(x^{(i)})\|_q$ 是有界的，那么它的极限分布一定有一个有限的右端点。论文作者主要reverse Weibull class感兴趣，因为它的累积概率分布有一个有限的右端点 $a_W$ 。右端点显示了分布的上极限，或被成为极值。这个极值就是局部交叉Lipschitz常数 $L^j_{q,x_0}$ ，在该论文中，作者主要是要去估计这个常数。首先在分布 $B_p(x_0,R)$ 中生成 $N_s$ 个 $x^{(i)}$ 的样本，每一个批次中均匀且独立，共有 $N_b$ 个批次数据量。然后去计算 $\|\nabla g(x^{(i)})\|$ ，在集合 $S$ 中保存保存下每个批次的最大值。接下来，作者对反向威布尔分布参数进行了极大似然估计，并且位置估计 $\hat{a}_W$ 被用作去估计 $L^j_{q,x_0}$ 。

定理3（单隐层神经网络 $F_Y(y)$ ）： 考虑一个神经网络 $f:\mathbb{R}^d \rightarrow \mathbb{R}^K$ ，其中输入为 $x_0\in \mathbb{R}^d$ ，隐层有 $U$ 个神经元且激活函数为ReLU激活函数。如果从球 $B_p(x_0,p)$ 中进行均匀采样，则梯度 $\|\nabla g(x)\|_q$ 的累积分布函数记作 $F_Y(y)$ ，并且该分布函数是分段线性的，共有 $M=\sum\limits_{i=0}^d C^i_U$ 段。给定 $c$ 和 $j$ ，则有 $g(x)=f_c(x)-f_j(x)$ ，其中 $\frac{1}{p}+\frac{1}{q}=1$ ， $\le p,q \le \infty$

证明： 单隐层第 $j_{th}$ 个神经元的输出可以表示为 $f_j(x)=\sum\limits_{r=1}^U V_{jr}\cdot \sigma\left(\sum\limits_{i=1}^d W_{ri}\cdot x_i+b_r\right)=\sum\limits_{r=1}^UV_{jr}\cdot \sigma(w_rx+b_r)$ 其中 $\sigma(z)=\max(z,0)$ 是ReLU激活函数， $W$ 和 $V$ 分别表示的是第一层和第二层的权重矩阵， $w_r$ 表示的矩阵 $W$ 的第 $r$ 行，则可以计算 $g (x)$ 和 $\|\nabla g(x)\|_q$ 表示为 $\begin{aligned}g(x)=f_c(x)-f_j(x)&=\sum\limits_{r=1}^U V_{cr}\cdot \sigma(w_r x+b_r)-\sum\limits_{r=1}^U V_{jr}\cdot \sigma(w_r x+b_r)\\&=\sum\limits_{r=1}^U(V_{cr}-V_{jr})\cdot \sigma(w_r x+b_r)\end{aligned}$ 并且则有 $\|\nabla g(x)\|_q = \left\|\sum\limits_{r=1}^U\mathbb{I}(w_r x+b_r)(V_{cr}-V_{jr})w^{\top}_r\right\|_q$ 其中 $\mathbb{I}(z)$ 表示的是一个一元指示函数 $\mathbb{I}(z)=\left\{\begin{array}{ll}1,&\mathrm{if}\text{ }z>0\\0,&\mathrm{if}\text{ }z \le 0\end{array}\right.$

如上图所示，超平面 $w_r x +b_r=0,r\in\{1,\cdots,U\}$ 将 $d$ 维空间 $\mathbb{R}^d$ 划分为不同的区域，每一个区域内满足不同的不等式约束，比如 $w_{r_+}x+b_{r_+}>0$ 和 $w_{r_-}x+b_{r_-}<0$ 。给定 $x$ ，对于任意 $r$ 可以通过查看 $w_rx+b_r$ 从而来判断它属于哪一个区域。同一个区域的所有的点的梯度范数是相同的，即比如对于任意的 $x_1$ 和 $x_2$ 满足 $\mathbb{I}(w_rx_1)=\mathbb{I}(w_rx_2+b_r)$ ，则可以推知 $\|\nabla g(x_1)\|=\|\nabla g(x_2)\|$ 。因为对于一个有 $U$ 个超平面的 $d$ 维空间中会存在最多 $M=\sum\limits_{i=0}^d C_U^i$ 个区域，梯度函数 $\|\nabla g(x)\|_q$ 最多可以取 $M$ 个不同的值。

如果以 $x_0$ 为中心， $R$ 为半径的球 $B_p(x_0,R)$ 中均匀采样的，并且记 $g(x)\|_q$ 为随机变量 $Y$ ，当 $Y$ 随机变量的分布是离散的时候，则它的分布函数是至少有 $M$ 段。不失一般性，假定对于 $Y$ 有 $M_0 < M$ 个不同的数值，令 $m_{(1)},m_{(2)},\cdots,m_{(M_0)}$ 是升序排列， $Y$ 的概率分布函数 $F_Y(y)$ 可以被定义为如下所示 $F_Y(m_i)=F_Y(m_{(i-1)})+\frac{\mathbb{V}(\{x|\|\nabla g(x)\|_q=m_{(i)}\})\cap \mathbb{V}_d(B_p(x_0,R))}{\mathbb{V}_d(B_p(x_0,R))},\text{ } i=1,\cdots,M_0$ 其中 $F_Y(m_{(0)})=0$ ，且有 $m_{(0)}<m_{(1)}$ ， $\mathbb{V}_d(E)$ 表示的是在 $d$ 维空间中 $E$ 的容量。

给定一个样本 $x_0$ ，分类器函数为 $f(x_0)$ ，目标类别为 $j$ 。分类器鲁棒性的有目标攻击的CLEVER分数能通过 $g(x_0)$ 和 $L_{q,x_0}^j$ ，同理无目标攻击的CLEVER也可以被计算出来，具体的算法流程图如下所示

实验结果

如下图所示来自不同数据集和网络结构的图像的交叉Lipschitz常数样本的概率分布函数和拟合的反向威布尔分布。还显示了估计的最大似人估计的参数、p值和K-S检验统计量D。

如下图所示，如果p值大于0.05，则不能拒绝零假设，这意味着基础数据样本很好地符合反向威布尔分布。可以发现，所有数字都接近100%，从经验上验证了可以使用反向威布尔分布作为梯度范数。因此，反向威布尔分布（即极值）的拟合位置参数 $\hat{a}_W$ 可以是用于计算CLEVER分数的局部交叉Lipschitz常数的良好估计。

下面两个表格分别表示了在 $L_\infty$ 和 $L_2$ 范数下，CLEVE分数与CW、I-FSGM以及SLOPE这四种评估方法在不同条件设置下的实验结果，对比实验结果可以发现，针对不同的神经网络模型CLEVER分数更好的体现出不同扰动的攻击程度，对于有防御机制的深度学习模型，CLEVER的分数也有显著的提高，说明该模型的鲁棒性能更好。