综述丨七场高端报告，带你大视角看人工智能发展

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

文章来源：雷锋网

2018 年 3 月 30 日，AITech 峰会在深圳龙岗区正式召开。

本次会议以配合国家新一代人工智能发展规划实施，支撑人工智能产业技术协同创新，加强人工智能领域的国内外技术交流为目的，由深圳市人民政府指导，深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办，深圳龙岗智能视听研究院承办。雷锋网作为独家战略合作媒体将进行现场内容详细报导。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

下面我们对几位专家的报告一一做简要介绍。

一、AI 开源平台的挑战与机遇

报告人：高文院士，中国工程院院士，新一代人工智能产业技术创新战略联盟理事长。

640?wx_fmt=jpeg

高文院士针对 AI 开源平台的四个方面进行了介绍，他认为这里既有挑战，也有机遇。

首先是我国人工智能发展的瓶颈问题。高文院士认为这有四点：（1）开源平台多，但平台之间相互隔离，模型不可相互转换，导致形成「算法孤岛」；（2）算法需要适配的异构硬件，性能和效率受制于硬件的组织管理；（3）应用绑定在 AI 算法平台与硬件，基础受制，推广性受限；（4）国际巨头通过 AI 开源工具打造生态和垄断智能硬件，严重挤压我国 AI 产业发展空间。针对这些问题，对这些瓶颈的应对策略就是，通过构建支撑开源软/硬件基础平台来支持人工智能技术产业链。

深圳云脑计划正是这样一个平台，它是为了配合国家新一代人工智能重大专项，解决上述四项瓶颈问题而成立的一项计划。这项计划近期主要为深圳云脑（SCB-AI），长期来看则还包括深圳量子云（SCB-QS）。

深圳云脑的体系架构分为三层：云脑硬件平台、云脑操作系统、重大应用。其中硬件平台包含了 GPU 集群，FPGA 推理节点、专用人工智能芯片推理部件。其次将这些硬件连接起来构成云脑操作系统，并提供给各种各样的人工智能应用，例如智能交通、智能医疗、自动驾驶等。通过这种方式，可以保证智能硬件的高能效、智能操作系统与软件的高效和可扩展，以及人工智能决策应用平台的高效实时、高性能和可解释。

在开源硬件之上就是依托联盟，建立 AI 技术的开源开放平台，实现 AI 数据共享、模型共享、技术共享等，共同开发建设 AI 开源共享社区。例如 AI 交流社区、AI 开发社区、AI 共享社区、AI 标准化社区、AI 教育社区等等。此外还会通过联盟来维护开源开放平台，建设开源开放平台子基金，通过联盟向深圳以及国内外开放，建立人工智能协同开发的生态。

高文院士总结到：我国人工智能发展面临四个挑战，解决这些挑战则需要强大的开源平台，深圳云脑是可能的选择之一。希望这个计划对整个中国人工智能计划起到帮助。

二、人工智能时代的教育

徐扬生：中国工程院院士、香港中文大学（深圳）校长

640?wx_fmt=jpeg

徐扬生院士在报告中首先给我们简单介绍了机器人的发展，随后提出「智能革命将是从生产力解放到心脑解放的一次革命」，这次革命所带来的影响将远远大于人类历史中所有通过解放肉体的革命所引起的影响。在这种智能革命下，人类以前以及现在所做的许多事情都将被人工智能所取代，人类社会也将进行重新分工，很多行业将会消失，同时也会产生许多新的行业。

在这种情况下，人类的教育需要做什么样的改变是一个严峻的问题。徐扬生院士认为，我们时代的教育主要还是在训练人类的弱点（例如记忆、逻辑判断；相比于人工智能），这需要改变。因此他提出人工智能时代下的教育的四条原则：

注重培养文理融合的复合型人才；

注重培养学生的想象力和创造力；

注重非知识型的教学和考试；

注重学生自我能力的培养。

三、Deep Learning Research

John E. Hopcroft，美国工程院院士、美国科学院院士、中国科学院外籍院士、图灵奖获得者

640?wx_fmt=jpeg

在报告中，图灵奖获得者 John Hopcroft 分享了一些深度学习领域中比较有趣的研究问题和对此的一些思考。

最近几年，随着深度神经网络的引入，特别是卷积神经网络（卷积神经网络，由卷积层、池化层、全连接层组成，最后是 softmax 输出每个类别的概率）的引入，图像分类等方面的错误率逐年下降，在 2015 年微软亚研院提出的 152 层深度残差网络（ResNet）在图像分类中超过了人的识别水平。但是在这方面还有很多问题值得研究，例如每个门学习的是什么、怎样让第二层的门与第一层的门学习不同的信息、怎样让一个门学习的内容随时间演化、用不同的初始权重门学习的是否是相同的内容、用不同的图像集训练两个网络早期的门学习的是否相同等等。

此外，在训练一个深度网络时，可能会有许多局部极小值，有些极小值可能会比其他的好。如何保证我们在训练的过程中能够找到一个好的局部极小值呢？训练深度网络往往会花费很长的时间，我们是否可以加速训练呢？这些也都是非常有意义的研究方向。

最后 John 提出了一个问题：人工智能是真的吗？他认为，现在的人工智能只是高维空间中的模式识别，AI 还不能提取出一个事物的本质或者理解它的功能。在 John 看来，要想实现这一点，只是需要另外 40 年的时间。他还说到，其实很多现在看来是智能的任务其实都不是 AI，有些只需要强大的计算以及大数据就足够了，例如棋类比赛。计算机正在做越来越多的人们以为需要智能的事情，实际上有些并不是 AI。所以我们在从事人工智能相关的工作时要想一想，这个问题的核心的是 AI 吗？还是仅仅需要大计算而已？

四、人工智能的字母表

芮勇：联想集团首席技术官，高级副总裁，ACM Fellow，IEEE Fellow

640?wx_fmt=jpeg

芮勇博士在演讲中介绍了人工智能字母表中的 A（Algorithm，算法）、B（Business，行业）、C（Computing，算力）、D（Data，数据）。他认为想要把一个人工智能系统做好，这四方面缺一不可；如果把人工智能看做一辆车的话，算法就是引擎，算力就是轮子，数据就是汽油，而行业则是方向盘。

A：算法-引擎

从人工智能出现至今，算法的沿革及演化大概是：逻辑回归，神经网络，支持向量机，隐马尔科夫模型，专家系统，深度学习。而事实上人工智能的算法也分为不同的阵营，例如符号学派（规则和决策树）；连接学派（神经网络）；贝叶斯学派（概率图模型）；类推学派（SVM）；进化学派（遗传算法）。目前来看，则是连接学派发展势头很好，其他稍次。

C：算力-车轮

计算力是车轮，承载了整个人工智能的运行。在几年前大家主要还是通过 CPU 集群来跑算法，而目前主流的计算引擎则是 GPU，CPU 则主要用于控制和参数同步；另一方面 FPGA 在嵌入式解决方案上的前景比较光明，而专用的 ASIC 芯片则羽翼未丰。

D：数据-汽油

数据是整个人工智能的能量来源。我们现在处于一个新数据时代，面临着一些列的挑战。

首先是数据量爆发，例如目前 90% 的数据都是两年内生成的，预计到 2020 年全球平均每人每秒都会产生 1.7MB 的数据，如何充分地利用这些数据是一个很有挑战性的问题。其次如何解决数据的质量问题，让数据能够覆盖更广泛的领域，而不只是集中在某些特定的领域。再次，如何高效地进行新数据的生成，例如生成对抗网络（GAN）。

B：行业-方向盘

行业就是人工智能的方向盘，决定着整个大方向向哪个地方发展。芮勇分别举了智慧交通、智慧医疗、智能心电衣等几个行业案例说明了这个问题。

芮勇总结到：请记住人工智能字母表的这前四个字母，A，B，C，D。它们是开好人工智能这辆车必须掌握的。

五、IoT时代的只能语音交互

鄢志杰：阿里巴巴达摩院-机器智能技术研究院语音交互首席科学家

640?wx_fmt=jpeg

我们知道阿里前两天刚刚发布要全面进军 IoT 领域，鄢志杰博士在报告中则介绍了阿里巴巴在 IoT 方面的工作。简单来说，阿里巴巴想要数字化整个物理世界，其观点是：计算是心脏，AI 是大脑，而 IoT 则是神经；神经能够使他们触达更多的用户，产生更多的数据，产生更大的价值。其表现为，阿里要做 IoT 基础建设的搭建者，在 5 年内布置 100 亿个 IoT 设备。

随后鄢志杰博士详细介绍了语音交互智能在 IoT 与互联网内容和服务中的桥梁作用，下面这张图是阿里内容架构图：

640?wx_fmt=jpeg

更详细地，鄢志杰博士则分别介绍了阿里的智能音箱、智联网汽车、电视（盒子）、公共场所服务机、多模态语音交互打平等产品。他认为在 IoT 时代，必须将技术、产品和商业打造成一个闭环才能够共同促进发展。

六、城市数据湖——城市发展

林拥军：易华录总裁

林拥军先生介绍了在大数据时代，数据如何存储和利用的问题。在现代，我们有了更多和更先进的感知器来收集数据，也有光纤、5G 等等数据传输管道；在计算上我们也有 GPU、TPU 以及超算等高性能计算硬件，但是在存储上我们仍然还在使用以硬盘、磁带等为主的器件，这些存储设备不仅能耗大，寿命短，而且安全性也较差。林拥军先生在此介绍了蓝光存储技术。

他把数据分为热数据、温数据和冷数据。其中热数据一般采用电存储，优点是速度快，轻便；而缺点是容量低、成本高、寿命短。温数据则一般采用磁存储，优点是速度较快，容量大；但缺点是能耗大、寿命短、易故障。而大量冷数据可以采用光存储的方式，其能耗只有磁存储的 0.3%，成本只有磁存储的 6.5%，寿命为 50-100 年，单张容量 300GB。他认为以「冷技术」保存冷数据，使冷、热数据得以完美结合，将成为人工智能时代数据存储的最优选择。

640?wx_fmt=jpeg

林拥军先生等人以蓝光存储技术为基础，构建一个城市新的基础设施，他们称之为城市「数据湖」。他认为这以后将是每一个城市的标配基础设施。在这个构想中，数据湖将成为政府主导建设的存储节能优先的基础设施，IDC 则将是企业主导建设的计算性能优先的商业实施。林拥军先生认为「古人逐水而居，今人逐数兴业」，因此数据将成为地方政府吸引人才的一个重要因素。

最后林拥军先生还提出了数据湖构建的三部曲——建湖、引水和水资源利用。建湖即为以光磁融合技术作为构建城市数据湖的核心要素；引水为政府已有数据的引入；水资源利用为数据驱动、决策支撑，推动改进政府治理方式，提升政府治理的高度。

七、端到端AI计算系统设计与优化

张清：浪潮集团AI首席架构师

目前人工智能计算面临着一系列问题，例如如何优化模型、自动学习模型、构建大规模算法等，这往往需要专家才能完成，且限于硬件设备的限制往往也不能达到最优化。

张清先生在报告中介绍了浪潮集团提出的端到端 AI 计算系统的设计思路。大概分为四层：

AI 计算平台：在平台中会针对某一问题的计算特点、领域特点、部署环境等进行设计算法。例如参数密集型或者计算密集型，平台会根据这些特点做出不同的配置。

AI 系统管理：对于个人来说可能只能配置少量的 GPU，硬件设施会限制运算的效率。但是如果基于大型的集成计算硬件平台，它们可以根据硬件资源的具体情况进行资源管理、调度和监控，可以有效地利用资源和提升运算效率。

AI 计算框架。系统将根据不同的场景要求、模型特点和平台特征选择合适的框架（TensorFlow、Caffe 或者别的）。

AI 应用方案：对 AI 应用实现进行分析，则会有四个过程，包括任务分解（例如是图像识别、语音合成还是机器翻译等）、数据准备（数据清洗、数据增强、数据标注等）、算法选择（RNN、ResNet、FCN 等）、系统构建（管理平台、计算平台等）。

端到端的 AI 计算系统优化技术方向包括三个：计算、通信和 IO。其中计算为 CPU 与 GPU 并行训练，进一步提高资源利用率。通信则采用硬件技术，实现通信的低延时域高贷款；IO 则采用线上与线下同意存储架构设计，降低数据传输时间。

640?wx_fmt=jpeg