【公众号文章】——对抗性机器学习的漏洞

对抗性机器学习的漏洞

链接来源：
https://mp.weixin.qq.com/s/I7JsQA8_1qFM5V32b7HubA

【引言】数据为人工智能革命提供了动力，但是安全专家们发现，完全可以通过篡改数据集或实现环境来攻击人工智能，对抗性的机器学习研究表明人工智能可会被黑客攻击，从而做出完全错误的决策。

为了防止犯罪分子想通过篡改数据集或现实环境来攻击人工智能，研究人员转向对抗性的机器学习研究。研究人员对数据进行修改，从而欺骗神经网络和人工智能系统，让它们看到不存在的东西，忽略存在的东西，或者使得其关于分类对象的决策完全错误。

就像谷歌和纽约大学研究人员所做的那样，在一辆校车的照片上加上一层对人类来说无形的数据噪声，神经网络就会报告说，它几乎可以肯定那是一只鸵鸟。不仅仅是图像可以这样：研究人员已经将隐藏的语音指令嵌入到广播中，从而控制智能手机，同时不会让人们察觉。

虽然这类工作现在被描述为一种攻击，但从哲学角度来说，对抗性的例子最初被视为神经网络设计中的一个近乎盲点：我们假设机器以我们同样的方式看东西，它们用与我们相似的标准来识别物体。2014年，谷歌研究人员在一篇关于“神经网络的有趣特性”的论文中首次描述了这一想法，该论文描述了如何在图像中添加“扰动”元素会导致神经网络出现错误——他们称之为“对抗性示例”。他们发现，微小的扭曲就可能会骗过神经网络，使其误读一个数字或误将校车当成别的什么东西。这项研究对神经网络 “固有盲点”以及它们在学习过程中的“非直觉特征”提出了质疑。换句话说，我们并不真正了解神经网络是如何运作的。

加州大学伯克利分校(University of California, Berkeley)计算机科学教授唐恩·宋(Dawn Song)、华盛顿大学(University of Washington)计算机安全研究员厄尔伦斯·费尔南德斯(Earlence Fernandes)等人都从事有关停车标志贴纸来干扰自动驾驶汽车。研究表明：因为人类对深度学习的原理及其局限性理解非常有限，且黑客攻击的范围很广，取决于攻击者处在机器学习模型生成过程的哪个阶段。因此，在开发机器学习模型时可进行训练时间攻击，也就是使用恶意数据来训练系统。

另一方面，推理时间攻击则是通过一系列算法——比如快速梯度符号法（Fast Gradient Sign Method，FGSM）和当前最优攻击方法(Carlini and Wagner)是两种最流行的算法——向模型显示精心制作的输入，从而迷惑神经网络。

【展望】有一个想法很有希望，那就是训练神经网络，通过对抗性示例包含在训练数据中来提高识别神经网络的健壮性。他说：“通过这种方式，神经网络‘学会’对对抗性示例有一定的抵抗力。”

【总结】这不仅是一个技术缺陷，也是一个哲学假设。首先，当攻击者可以自由操纵数据获取优势时，机器学习开发人员会假定训练数据和测试数据是相似的。第二，我们往往认为神经网络像我们一样思考，但实际上并不是如此;神经网络用来识别玩具龟的元素与我们所寻找的不同，而这种差异性正是攻击的突破口。费尔南德斯说:“神经网络是非常粗略地模拟人类大脑。试图将它们视为与我们大脑类似的运作方式，可能并不是思考它们的最佳方式。”

【公众号文章】——对抗性机器学习的漏洞

对抗性机器学习的漏洞

猜你喜欢