Adversarial Attack
Attack
尝试解释:在某个维度上,该类别的分布过于狭小陡峭,以至于稍微移动一点就到了别的不相关类别。
White-box attack
loss func
对图片进行optimition,使得网络输出远离正确输出,接近指定输出(Targeted Attack)。在一定约束下(更改不要太明显以至被发现)
constraint定义与实现
与原图片的距离函数,可选用l2-norm\L-infinity等衡量方式
实现时,更新得到的x如果不符合constraint,则选择符合constraint的点中最靠近x的那个。
Black-Box Attack
不可获得网络架构与参数
可获得训练样本
训练一个proxy network模拟target network,攻击proxy network,得到的图片也可攻击target network.
不可获得训练样本
不断输入数据,得到n个输入-输出pair训练proxy network。
More
- 一个相同的杂讯或许可以扰乱许多图片的判断
- 可以对网络进行reprogramming,让它去做其他任务
- 还可以攻击视频和文字