不久之前，人们还常说，计算机视觉的辨别能力尚不如一岁大的孩子。如今看来，这句话要改写了。

----- 特伦斯·谢诺夫斯基

人工智能初现端倪

人工智能初现

人工智能“第一次危机”——“设计派”行不通

第一次危机破局——学习派初见成效

人工智能“第二次危机”——多层神经网络无法训练

第二次危机破局——玻尔兹曼机

人工智能“第三次危机”——算力跟不上

大家好啊，我是董董灿。

chatGPT 火了很久了，这是继 alphaGo 大战李世石大火之后，人工智能领域又一个难得一见的现象级产品。

据说 chatGPT 是历史上从发布到获得“一亿用户活跃度”最快的应用，可见它的火热。

人工智能现在发展的如火如荼，但你知道么，从上世纪50年代开始到现在，这几十年的过程中，人工智能的发展却一波三折，甚至出现了停滞。

有人说，人工智能在发展过程中，出现过“三次危机”。而每一次危机，都随着人类科学技术的不断发展，被更科学更先进的技术所化解。

最终，人工智能迎来了它的春天。

最近我在看一本书，书名叫《深度学习》，作者是特伦斯.谢诺夫斯基。

你可能听说过一本与它同名的书也叫《深度学习》，别名《花书》。

但这本书不同于花书的是，它不是专业性知识的介绍，更像是一本通俗的深度学习入门读物。

作者以自己亲历人工智能发展历史的视角，向读者展示了深度学习的发展脉络，在回顾历史的同时，还展望了未来。

作为一个从事人工智能行业的人，看完之后，大受震撼。最震撼的，大概是书中讲到的人工智能的发展历史，以及它是如何在不断演进中，慢慢走向春天的。

今天，就写一写书中提到的人工智能的发展史中，出现过的“三次危机”。

人工智能初现端倪

研究人工智能算法的同学可能知道，目前人工智能普遍的实现方式，是设计深层次的人工神经网络，通过对大量数据样本进行训练，获取到AI模型，然后利用训练好的模型，完成各项任务的推理工作。

因此，无论是图像任务、语音任务还是文字转图像任务（AI绘画），大抵都是如此的逻辑。

这种对AI模型训练的方法，基本都是基于深度学习的算法而来。

深度学习中所谓的深度，指的是在人工神经网络中，网络的层数很深，神经网络可以深度地“自学习”数据样本中的各种特征。

因此，可以不夸张的讲，深度学习，是人工智能的灵魂。

但是，在人工智能出现的最开始，却不是这样的。

人工智能初现

1956 年，马文·明斯基等四位美国科学家，共同发起了达特茅斯人工智能夏季研究计划，开始了人工智能领域的研究。

在人们刚开始研究人工智能的时候，关于如何构建人工智能，当时存在两种不同的观点。

一种观点主张使用逻辑和计算机程序来设计人工智能，而另一种则主张让人工智能直接从数据中进行自我学习。

前者暂且称之为“设计派”，他们认为，人工智能可以基于逻辑和计算机程序被设计出来。

只要给出明确的规则和逻辑，编写程序输入计算机，就能让计算机拥有智能。

举个例子，只要我们能够给出足够的规则来描述什么是一只猫，那么计算机只要看到世界上任何一只猫，它都可以识别出来。

另一派则被称之为“学习派”。他们主张借助大量的数据样本，让计算机程序自己学习，慢慢拥有智能。

虽然“学习派”的观点和目前构建人工智能的方式很相近，但在当时的情况下，大多数的人工智能科学家，却更倾向于“设计派“”。

为什么呢？

因为设计派的理念与当时的环境和计算机研究更相符。

毕竟，当时的人们，让计算机实现数学计算，并不是让他自己去学习的，而是通过编程，把一加一等于二这种简单的规则告诉他，他自己就可以扩展完成更多的复杂计算。

于是，在上世纪七八十年代，在医疗行业就出现了所谓的人工智能专家系统。

科学家和医生为了识别某一致病菌，会依据以往的案例和数据，把病菌的特点和患者的表现输入到计算机中作为数据库，然后将新的症状与数据库中已有的记录进行匹配，输出匹配结果，完成专家系统的诊断。

但是人们很快就发现，对于稍微复杂的病症，医生们更倾向于自己的经验判断，而非专家系统的推理结果。

在复杂病症的处理上，当时的人工智能专家系统，显得力不从心。

在当时，一个更加典型的例子是积木世界，这也导致了人们对于基于“设计派”观点构建人工智能的不信任。

人工智能“第一次危机”——“设计派”行不通

积木世界（Blocks World）是MIT AI Lab（麻省理工人工智能实验室）在20世纪60年代推出的一个项目。

当时为了处理视觉问题，将人类所在的真实世界进行了简化，称为“积木世界”。积木世界由矩形积木组成，积木可以堆叠起来组成新的结构。

该项目的目标是编写一个能够理解命令的程序，例如“找到一个大的黄色积木并将其放在红色积木上面”，并让机器人手臂执行命令完成对应动作。

这看起来小孩子都会玩的游戏，但在当时，却需要一个庞大而复杂的程序来实现。

而且这个程序后来变得十分冗长，以至于编写该程序的学生——特里·维诺格拉德离开该实验室之后，程序因为错误百出，频频崩溃，最终被无奈地放弃。

这个看起来很简单的问题，在使用程序编码实现的过程中，却异常的艰难，几乎不可能成功。

就算解决了积木世界的问题，想要通过编程完成一栋现实中大楼的建设，这中间还是有巨大的技术鸿沟。

于是，通过设计一种特定的规则，让机器拥有智能这条路，开始碰壁了。

“设计派”们心灰意冷，放弃了积木问题的研究。

这也使人们意识到，单纯的靠规则和逻辑，完成复杂现实世界的推理，是不可行的。

第一次危机破局——学习派初见成效

“设计派”的路走不通，科学家们开始发力，寻找另一种可行的方法。于是，“学习派”越来越被受到重视。

1957年，康奈尔大学的弗兰克·罗森布拉特教授发明了“感知器”，这是深度学习的前身。

感知器是具有单一人造神经元的神经网络，它只有一个输入层，一个神经元和一个输出。

可以说，他是现代人工神经网络中的最小单元。

感知器的出现，其实已经初步具有现代深度学习的雏形，只不过它是一个单独的神经元，并没有现代神经网络复杂多层的结构。

在发明感知器的同一年，美国军方就利用感知器完成了一个程序，让计算机识别有坦克的图片，训练一段时间后，计算机竟然真的可以从新的图片中正确的识别出坦克。

这在当时，引起了轰动。

这也意味着，设计派走不通的路，学习派可以走通，并且已经初见成效。

但是接下来又遇到了新问题——

怎么让感知器算法处理更加复杂的问题呢？总不能一直识别坦克吧，它能不能和人一样，能听，能说，能写，能画呢？

于是，人工智能的研究者们开始尝试，把感知器和感知器连接起来，组成更大的人工神经网络。

可是，还没开始，这条路，就被人工智能之父——堵死了。

人工智能“第二次危机”——多层神经网络无法训练

马文·明斯基，1956年达特茅斯人工智能夏季研究计划的发起人，大家眼中的——人工智能之父。

在1969年，它出版了一本书，书名就叫《感知器》。

在书中，明斯基给出了几条结论。

第一条是: 单个感知器，只能解决有限的问题。要解决更复杂的问题，必须要把更多感知器连接起来，组成人工神经网络。

第二条是: 我们无法找到一种可行的算法，来对多层的人工神经网络进行训练。

这段话什么意思？

就好比有人告诉你，我们发现了，圆形可以稳定高速的在地上移动，我们可以利用这个特性造出快速的交通工具。

甚至，已经有人造出了独轮车，但是，也只能如此了，想要实现高铁那种高速、复杂又载人多的功能，是不可能办到的。

我们找不到办法可以办到，现在不行，将来也不行。

而且告诉你的不是别人，正是独轮车的发明人——人工智能之父。

于是，一代人工智能研究者，心灰意冷。导致了在后来长达十几年的时间里，人工智能的发展处于停滞状态。

一句“多层人工神经网络无法训练”，迎来了人工智能的第二次危机。

第二次危机破局——玻尔兹曼机

1985 年，特伦斯·谢诺夫斯基，也就是上面介绍的《深度学习》这本书的作者，和另一个人工智能专家杰弗里·辛顿，提出了一种算法，可以让多个感知器共同组成一个人工神经网络。

这个算法叫做"玻尔兹曼机"。

玻尔兹曼机的出现，证明了科学家们可以找到一种方法，让多层人工神经网络处理更加复杂的问题。

在随后的 1986 年，大卫·鲁姆哈特提出了"误差反向传播"算法，它比玻尔兹曼机更简单高效。

误差反向传播算法几乎是现代深度学习中的灵魂，它可以让一个神经网络得到上一次推理结果的反馈，从而不断纠正自己，完成自我训练，也就是使神经网络具有自学习能力。

如果说深度学习是人工智能的灵魂，那么反向传播算法就是深度学习的灵魂。

于是，在反向传播算法的加持下，人工智能的第二次浪潮到来。

可是这股浪潮，到了 1995 年前后，又停滞不前了。

人工智能“第三次危机”——算力跟不上

这一次是因为算力太拉胯了。

上世纪90年代，国内计算机才刚刚开始走向大众。当时的计算机芯片的计算能力少的可怜。

据说当时有人在电脑上运行人工智能程序，神经元的个数不敢超过 20 个，一个模型的参数估计也就几十几百个。

而现在的大模型，比如最火的GPT4的参数，是以万亿为单位的。

如此多的参数量，没有大量的算力和硬件计算资源，是根本行不通的。

于是，人工智能领域的研究者除了不断优化算法，其余的时间只能等待，等待计算机的算力的爆发时刻，在继续研究层数更深，参数更大的大模型。

怎么等？能等到么？

在芯片行业有个定律叫“摩尔定律”，是说，每隔两年，芯片内晶体管的数量增加一倍，简单来说，就是芯片的运算能力增加一倍。

这种指数级的增长是很吓人的。

从上世纪开始，摩尔定律配合着时间，开始发挥他的魔力。

几十年间，一个同等大小的芯片，其算力已经是最初的几百几千万倍了。

最近几十年，随着芯片制程的不断发展，从28nm到14nm，再到7nm，再到5nm，芯片算力持续攀升。

从2012年开始，英伟达CUDA编程模型的问世，GPU架构的不断升级，人工智能多卡训练成为现实。

这一系列的科技加持，使得人工智能的春天，又一次到来。

这一次，人工智能的发展像是洪水猛兽，一发不可收拾。

算力需求持续走高，倒逼着芯片架构不断创新，国内外AI芯片如雨后春笋般出现。

算力的加持又使得人工智能的应用延伸到各行各业。甚至反哺芯片制造业，芯片制造业下的蛋，最终又成了鸡。

AI模型不断优化，AI训练的速度和精度不断被刷榜，顶会期刊不断SOTA。

这一次，算法成熟了，算力也跟上了，人工智能的研究，终于可以在大模型上崭露头角。

于是，chatGPT，走向大众，破圈了。

国内的百度也在积极部署文心大模型。有人说，随着人工智能大模型的成熟，这一波的科技浪潮，要远比移动互联网带来的影响更大。

甚至，它可能掀起第四次工业革命。

而这一次的浪潮，我们每一个人都在经历。

看完这本书，回过头来思考人工智能的发展，我依然心潮澎湃。

一个新的技术的发展，离不开当时的科技环境。

人工智能从最初基于规则进行的程序设计，到感知机，到玻尔兹曼机，到反向传播算法、再到现在的AI芯片算力加持，每一步走的都异常艰难。

很早之前就看过说，人工智能的三驾马车，是数据、算法和算力。

数据得益于互联网的发达，chatGPT的训练数据就来自于各个国家的互联网。

算法得益于人工智能算法科学家几十年的沉淀和不断持续的优化。

算力得益于芯片制程的不断创新和摩尔定律与时间的魔法效应。

三驾马车都齐了，人工智能还能发展不起来么？

每一个行业从萌芽，到初具规模，走的都不容易。幸运作为一名深度学习算法开发者，参与了这次人工智能发展的浪潮。见证这次的科技变革。

有朝一日随风起，扶摇直上九万里。

人工智能从来不是一帆风顺的

人工智能初现端倪

人工智能初现

人工智能“第一次危机”——“设计派”行不通

第一次危机破局——学习派初见成效

人工智能“第二次危机”——多层神经网络无法训练

第二次危机破局——玻尔兹曼机

人工智能“第三次危机”——算力跟不上

猜你喜欢