Recognize people as dogs? Machines are still too easy to fool

AI Technology Review Press: A few days ago, Jeff Dean, the head of Google Brain, retweeted a tweet from Anish Athalye. The content of the tweet is as follows:

Defense against adversarial examples is still an unsolved problem, and we have broken seven of the eight papers on defense that were accepted by ICLR three days ago.

This remark immediately attracted the attention of the entire machine learning academic circle . Wired recently published a discussion article on the follow-up to this incident, compiled by AI Technology Review.

Fueled by the power of machine learning, tech companies are rushing to combine many things with artificial intelligence. But the deep neural networks that fueled this trend have a hard-to-fix weakness: Small changes to images, text, or audio can trick these systems into perceiving things that aren't there.

This could be a big problem for products that rely on machine learning, especially for vision systems such as self-driving cars, and researchers are working hard to develop defenses against such attacks, but it's challenging.

ICLR 2018, held in Canada at the end of April, announced the results in January of this year, and they proposed methods to counter or detect such adversarial attacks. But just three days later, MIT student Anish Athalye claimed to have "cracked " seven of the new papers, including institutions like Google, Amazon and Stanford. " A creative-minded attacker can still circumvent these defenses, " Athalye said. He worked on the project with Berkeley graduate student David Wagner and professor Nicholas Carlini. 

这个项目导致一些学者对这三人组的研究细节进行了反复讨论。但关于项目中提到的一点他们几乎没有争议:目前人们尚不清楚如何保护基于深度神经网络的消费品和自动驾驶产品以免让幻觉给破坏了。所有这些系统都很脆弱,意大利卡利亚里大学的助理教授 Battista Biggio 已经研究机器学习的安全问题有十年之久,机器学习社区缺乏评估安全性的方法论。

人类将很容易识别 Athalye 创建的上面这张图,它里面有两名滑雪者,而谷歌的 Cloud Vision 服务认为它有 91% 的可能性是一只狗。其他的反面案例不胜枚举,如机器识别不出停止标志,人类听起来一点问题没有的语音,机器却理解为「好的谷歌,去访问某某恶意网站吧」。

到目前为止,此类攻击还没有在实验室以外的地方得到证实。但伯克利的博士后研究员 Bo Li 说,现在他们仍然需要认真对待。自动驾驶汽车的视觉系统,能够购物的语音助理以及过滤网上不雅内容的机器学习系统都需要值得信赖。 这是非常危险的。Li 说,她去年的研究——在停车标志上贴上贴纸——表明可以使机器学习软件识别不到它们。

Athalye 及其合作者共同撰写的论文中就有 Li 作为共同作者。她和伯克利的其他人介绍了一种分析对抗攻击的方法,并表明它可以用来检测这些攻击。 Li 对 Athalye 的关于防护还有诸多漏洞的项目表示,这种反馈有助于研究人员取得进步。 他们的攻击表明我们需要考虑一些问题她说。

在 Athalye 所分析论文在内的斯坦福大学的研究者 Yang Song 拒绝对此发表评论,他的论文正在接受另一个重要会议的审查。卡内基梅隆大学教授兼包括亚马逊研究员在内的另一篇论文共同作者 Zachary Lipton 表示,他没有仔细检查分析结果,但认为所有现有的防御措施都可以避开是合理的。Google 拒绝对自己的论文进行评论,该公司的一位发言人强调 Google 致力于对抗攻击的研究,并表示计划更新公司的 Cloud Vision 服务,以抵御这些攻击。 

为了对攻击建立更强大的防御机制,机器学习研究人员可能要更加苛刻。 Athalye 和 Biggio 表示,该领域应该采用安全研究的做法,他们认为这种做法能更严格的测试新防御技术。 在机器学习领域,人们倾向于相互信任,Biggio 说,而安全研究的心态正好相反,你必须始终怀疑可能会发生不好的事情发生。

上个月,AI 和国家安全研究人员的一份重要报告也提出了类似的建议,它建议那些从事机器学习的人应更多地考虑他们正在创造的技术会被滥用或利用。

对于某些 AI 系统来说,防范对抗性攻击可能比其他方面要做的要更为容易。Biggio 说,受过训练的检测恶意软件的学习系统应该更容易实现强鲁棒性,因为恶意软件是功能性的,限制了它的多样性。 Biggio 称,保护计算机视觉系统要困难得多,因为自然界变化多端,图像中包含了很多像素。

解决这个问题(这可能会挑战自动驾驶汽车的设计者)可能需要对机器学习技术进行更彻底的反思。我想说的根本问题是,深度神经网络与人脑大不相同。Li 说。

人类并不对来自感官的欺骗完全免疫。我们可能被看到的错觉所愚弄,最近来自 Google 的一篇论文创建了奇怪的图像,这欺骗了软件和人类,让他们在不到 1/10 秒内看见图像时将猫误认为是狗。但是,在解释照片时,我们不仅要看像素模式,还要考虑图像不同组成部分之间的关系,比如人脸特征,Li 说。

Google 最杰出的机器学习研究员 Geoff Hinton 正试图给机器提供这种能力,他认为这可以让软件学会从少数几张图片而不是几千张图片中识别物体。Li 认为,具有更人性化视角的机器也不太容易受到幻觉影响。她和伯克利的其他研究者已经开始与神经科学家和生物学家展开合作,尝试从自然界获得启发。

AI 科技评论编译自 Wired,封面图来自 Marco Goran Romano。



点击下方“阅读原文”了解【人工智能实验平台】
↓↓↓

Guess you like

Origin http://43.154.161.224:23101/article/api/json?id=324689688&siteId=291194637