【公众号文章】——对抗性机器学习的漏洞

对抗性机器学习的漏洞


链接来源:
https://mp.weixin.qq.com/s/I7JsQA8_1qFM5V32b7HubA


【引言】数据为人工智能革命提供了动力,但是安全专家们发现,完全可以通过篡改数据集或实现环境来攻击人工智能,对抗性的机器学习研究表明人工智能可会被黑客攻击,从而做出完全错误的决策。


为了防止犯罪分子想通过篡改数据集或现实环境来攻击人工智能,研究人员转向对抗性的机器学习研究。研究人员对数据进行修改,从而欺骗神经网络和人工智能系统,让它们看到不存在的东西,忽略存在的东西,或者使得其关于分类对象的决策完全错误。

就像谷歌和纽约大学研究人员所做的那样,在一辆校车的照片上加上一层对人类来说无形的数据噪声,神经网络就会报告说,它几乎可以肯定那是一只鸵鸟。不仅仅是图像可以这样:研究人员已经将隐藏的语音指令嵌入到广播中,从而控制智能手机,同时不会让人们察觉。

虽然这类工作现在被描述为一种攻击,但从哲学角度来说,对抗性的例子最初被视为神经网络设计中的一个近乎盲点:我们假设机器以我们同样的方式看东西,它们用与我们相似的标准来识别物体。2014年,谷歌研究人员在一篇关于“神经网络的有趣特性”的论文中首次描述了这一想法,该论文描述了如何在图像中添加“扰动”元素会导致神经网络出现错误——他们称之为“对抗性示例”。他们发现,微小的扭曲就可能会骗过神经网络,使其误读一个数字或误将校车当成别的什么东西。这项研究对神经网络 “固有盲点”以及它们在学习过程中的“非直觉特征”提出了质疑。换句话说,我们并不真正了解神经网络是如何运作的。

加州大学伯克利分校(University of California, Berkeley)计算机科学教授唐恩·宋(Dawn Song)、华盛顿大学(University of Washington)计算机安全研究员厄尔伦斯·费尔南德斯(Earlence Fernandes)等人都从事有关停车标志贴纸来干扰自动驾驶汽车。研究表明:因为人类对深度学习的原理及其局限性理解非常有限,且黑客攻击的范围很广,取决于攻击者处在机器学习模型生成过程的哪个阶段。因此,在开发机器学习模型时可进行训练时间攻击,也就是使用恶意数据来训练系统。

另一方面,推理时间攻击则是通过一系列算法——比如快速梯度符号法(Fast Gradient Sign Method,FGSM)和当前最优攻击方法(Carlini and Wagner)是两种最流行的算法——向模型显示精心制作的输入,从而迷惑神经网络。


【展望】有一个想法很有希望,那就是训练神经网络,通过对抗性示例包含在训练数据中来提高识别神经网络的健壮性。他说:“通过这种方式,神经网络‘学会’对对抗性示例有一定的抵抗力。”


【总结】这不仅是一个技术缺陷,也是一个哲学假设。首先,当攻击者可以自由操纵数据获取优势时,机器学习开发人员会假定训练数据和测试数据是相似的。第二,我们往往认为神经网络像我们一样思考,但实际上并不是如此;神经网络用来识别玩具龟的元素与我们所寻找的不同,而这种差异性正是攻击的突破口。费尔南德斯说:“神经网络是非常粗略地模拟人类大脑。试图将它们视为与我们大脑类似的运作方式,可能并不是思考它们的最佳方式。”

猜你喜欢

转载自blog.csdn.net/qq_25134999/article/details/82692765