神经网络、深度学习、人工智能、智能制造2018资料汇编(公号回复“AI2018资料”下载PDF资料,欢迎转发、赞赏支持科普)

版权声明: https://blog.csdn.net/qq_28260611/article/details/82252511

神经网络、深度学习、人工智能、智能制造2018资料汇编(公号回复“AI2018资料”下载PDF资料,欢迎转发、赞赏支持科普)

秦陇纪 科学Sciences 今天

科学Sciences导读:本文汇编五篇科普文章:一文读懂神经网络;深度学习并非万能:你需要避免这三个坑;2018年全球AI突破性技术TOP10;新一代人工智能领域十大最具成长性技术展;先进制造业-数字化解决方案。欢迎留言探讨科学、技术、工程、方案。

神经网络、深度学习、人工智能、智能制造资料汇编(16218字)目录

A一文读懂神经网络(7179字)

一.神经网络的发展历史

二.感知器模型

三.前馈神经网络

四.后向传播

五.深度学习入门

B深度学习并非万能:你需要避免这三个坑(1460字)

一、深度学习不适用于小数据集

二、深度学习运用于实践是困难且昂贵的

三、深层网络不易解释

C 2018年全球AI突破性技术TOP10 (5240字)

1 基于神经网络的机器翻译

2 基于多传感器跨界融合的机器人自主导航

3DuerOS对话式人工智能系统

4 移动AR技术

5 生物特征识别技术

6 机器人流程自动化

7 像素级声源定位系统PixelPlayer

8 兼顾高精度学习和低精度推理的深度学习芯片

9 智能代理训练平台

10 入耳式人工智能

D新一代人工智能领域十大最具成长性技术展望(2114字)

1、对抗性神经网络

2、胶囊网络

3、云端人工智能

4、深度强化学习

5、智能脑机交互

6、对话式人工智能平台

7、情感智能

8、神经形态计算

9、元学习

10、量子神经网络

E先进制造业-数字化解决方案(64字)

参考文献(354字)Appx.数据简化DataSimp社区简介(835字)

A一文读懂神经网络(7179)

一文读懂神经网络

文|孙飞(丹丰),汇编:数据简化社区秦陇纪,2018-08-28Tue

演讲嘉宾简介:孙飞(丹丰),阿里巴巴搜索事业部高级算法工程师。中科院计算所博士,博士期间主要研究方向为文本分布式表示,在SIGIR、ACL、EMNLP以及IJCAI等会议发表论文多篇。目前主要从事推荐系统以及文本生成相关方面研发工作。

本次的分享主要围绕以下五个方面:

神经网络的发展历史

感知器模型

前馈神经网络

后向传播

深度学习入门

一.神经网络的发展历史

在介绍神经网络的发展历史之前,首先介绍一下神经网络的概念。神经网络主要是指一种仿造人脑设计的简化的计算模型,这种模型中包含了大量的用于计算的神经元,这些神经元之间会通过一些带有权重的连边以一种层次化的方式组织在一起。每一层的神经元之间可以进行大规模的并行计算,层与层之间进行消息的传递。

下图展示了整个神经网络的发展历程:

神经网络的发展历史甚至要早于计算机的发展,早在上个世纪四十年代就已经出现了最早的神经网络模型。接下来本文将以神经网络的发展历程为主线带领大家对神经网络的基本知识作初步了解。

第一代的神经元模型是验证型的,当时的设计者只是为了验证神经元模型可以进行计算,这种神经元模型既不能训练也没有学习能力,可以简单的把它看成是一个定义好的逻辑门电路,因为它的输入和输出都是二进制的,而中间层的权重都是提前定义好的。

神经网络的第二个发展时代是十九世纪五六十年代,以Rosenblatt提出的感知器模型和赫伯特学习原则等一些工作为代表。

二.感知器模型

感知器模型与之前提到的神经元模型几乎是相同的,但是二者之间存在着一些关键的区别。感知器模型的激活函数可以选择间断函数和sigmoid函数,且其输入可以选择使用实数向量,而不是神经元模型的二进制向量。与神经元模型不同,感知器模型是一个可以学习的模型,下面介绍一下感知器模型的一个优良特性——几何解释。

我们可以把输入值(x1, . . . , xn)看作是N维空间中的一个点的坐标,w⊤x−w0 = 0 可以认为是N维空间中的一个超平面,显然,当w⊤x−w0<0时,此时的点落在超平面的下方,而当w⊤x−w0>0时,此时的点落在超平面的上方。感知器模型对应的就是一个分类器的超平面,它可以将不同类别的点在N维空间中分离开。从下图中可以发现,感知器模型是一个线性的分类器。

对于一些基本的逻辑运算,例如与、或、非,感知器模型可以非常容易地作出判断分类。那么是不是所有的逻辑运算都可以通过感知器进行分类呢?答案当然是否定的。比如异或运算通过一个单独的线性感知器模型就很难作出分类,这同样也是神经网络的发展在第一次高潮之后很快进入低谷的主要原因。这个问题最早在Minsky等人在关于感知器的著作中提出,但其实很多人对这本著作存在误区,实际上Minsky等人在提出这个问题的同时也指出异或运算可以通过多层感知器实现,但是由于当时学术界没有有效的学习方式去学习多层感知器模型,所以神经网络的发展迎来了第一次低谷。

关于多层感知器模型实现异或操作的直观几何体现如下图所示:

三.前馈神经网络

进入十九世纪八十年代之后,由于单层的感知器神经网络的表达能力非常有限,只能做一些线性分类器的任务,神经网络的发展进入了多层感知器时代。一个典型的多层神经网络就是前馈神经网络,如下图所示,它包括输入层、节点数目不定的隐层和输出层。任何一个逻辑运算都可以通过多层感知器模型表示,但这就涉及到三层之间交互的权重学习问题。将输入层节点xk乘以输入层到隐层之间的权重vkj,然后经过一个如sigmoid此类的激活函数就可以得到其对应的隐层节点数值hj,同理,经过类似的运算可以由hj得出输出节点值yi。

需要学习的权重信息就是w和v两个矩阵,最终得到的信息是样本的输出y和真实输出d。具体过程如下图所示:

如果读者有简单的机器学习知识基础的话,就会知道一般情况下会根据梯度下降的原则去学习一个模型。在感知器模型中采用梯度下降的原则是较为容易的,以下图为例,首先确定模型的loss,例子中采用了平方根loss,即求出样本的真实输出d与模型给出的输出y之间的差异,为了计算方便,通常情况下采用了平方关系E= 1/2 (d−y)^2 = 1/2 (d−f(x))^2 ,根据梯度下降的原则,权重的更新遵循如下规律:wj ← wi + α(d − f(x))f′(x)xi ,其中α为学习率,可以作人工调整。

四.后向传播

对于一个多层的前馈神经网络,我们该如何学习其中所有的参数呢?首先对于最上层的参数是非常容易获得的,可以根据之前提到的计算模型输出和真实输出之间的差异,根据梯度下降的原则来得出参数结果,但问题是对于隐层来说,虽然我们可以计算出其模型输出,但是却不知道它的期望输出是什么,也就没有办法去高效训练一个多层神经网络。这也是困扰了当时学术界很长时间的一个问题,进而导致了上个世纪六十年代之后神经网络一直没有得到更多发展。

后来到了十九世纪七十年代,有很多科学家独立的提出了一个名为后向传播的算法。这个算法的基本思想其实非常简单,虽然在当时无法根据隐层的期望输出去更新它的状态,但是却可以根据隐层对于Error的梯度来更新隐层到其他层之间的权重。计算梯度时,由于每个隐层节点与输出层多个节点之间均有关联,所以会对其上一层所有的Error作累加处理。

后向传播的另一个优势是计算同层节点的梯度和权重更新时可以并行进行,因为它们之间不存在关联关系。整个BP算法的过程可以用如下的伪码表示:

接下来介绍一些BP神经网络的其他性质。BP算法其实就是一个链式法则,它可以非常容易地泛化到任意一个有向图的计算上去。根据梯度函数,在大多数情况下BP神经网络给出的只是一个局部的最优解,而不是全局的最优解。但是从整体来看,一般情况下BP算法能够计算出一个比较优秀的解。下图是BP算法的直观演示:

在大多数情况下,BP神经网络模型会找到范围内的一个极小值点,但是跳出这个范围我们可能会发现一个更优的极小值点。在实际应用中针对这样的问题我们有很多简单但是非常有效的解决办法,比如可以尝试不同的随机初始化的方式。而实际上在深度学习领域当今比较常用的一些模型上,初始化的方式对于最终的结果是有非常大的影响的。另外一种使模型跳出局部最优解范围的方式是在训练的时候加入一些随机干扰(Random noises),或者用一些遗传算法去避免训练模型停留在不理想的局部最优解位置。

BP神经网络是机器学习的一个优秀的模型,而提到机器学习就不得不提到一个在整个机器学习过程中经常遇到的基本问题——过拟合(Overfitting)问题。过拟合的常见现象是模型在训练集上面虽然loss一直在下降,但是实际上在test集上它的loss和error可能早已经开始上升了。避免出现过拟合问题有两种常见的方式:

提前停止(Early Stopping):我们可以预先划分一个验证集(Validation),在训练模型的同时也在验证集之中运行这个模型,然后观察该模型的loss,如果在验证集中它的loss已经停止下降,这时候即使训练集上该模型的loss仍在下降,我们依然可以提前将其停止来防止出现过拟合问题。

正则(Regularization):我们可以在神经网络中边的权重上加一些正则。最近几年经常用到的dropout方式——随机丢一些点或者随机丢一些边,也可以看作是正则的一种方式,正则也是一种很有效的防止过拟合的应用方式。

十九世纪八十年代神经网络一度非常流行,但很不幸的是进入九十年代,神经网络的发展又陷入了第二次低谷。造成这次低谷的原因有很多,比如支持向量机(SVM)的崛起,支持向量机在九十年代是一个非常流行的模型,它在各大会议均占有一席之地,同时也在各大应用领域都取得了非常好的成绩。支持向量机有一个非常完善的统计学习理论,也有非常好的直观解释,并且效率也很高,结果又很理想。

所以在此消彼长的情况下,支持向量机相关的统计学习理论的崛起一定程度上压制了神经网络的发展热度。另一方面,从神经网络自身的角度来看,虽然理论上可以用BP去训练任意程度的神经网络,但是在实际应用中我们会发现,随着神经网络层数的增加,神经网络的训练难度成几何式增长。比如在九十年代早期,人们就已经发现在层次比较多的一个神经网络当中可能会出现梯度消失或者梯度爆炸的一个现象。

举一个简单的梯度消失的例子,假设神经网络的每一层都是一个sigmoid结构层,那么BP向后传播时它的loss每一次都会连成一个sigmoid的梯度。一系列的元素连接在一起,如果其中有一个梯度非常小的话,会导致传播下去的梯度越来越小。实际上,在传播一两层之后,这个梯度已经消失了。梯度消失会导致深层次的参数几乎静止不动,很难得出有意义的参数结果。这也是为什么多层神经网络非常难以训练的一个原因所在。

学术界对于这个问题有比较多的研究,最简单的处理方式就是修改激活函数。早期的尝试就是使用Rectified这种激活函数,由于sigmoid这个函数是指数的形式,所以很容易导致梯度消失这种问题,而Rectified将sigmoid函数替换成max(0,x),从下图我们可以发现,对于那些大于0的样本点,它的梯度就是1,这样就不会导致梯度消失这样一个问题,但是当样本点处于小于0的位置时,我们可以看到它的梯度又变成了0,所以ReLU这个函数是不完善的。后续又出现了包括Leaky ReLU和Parametric Rectifier(PReLU)在内的改良函数,当样本点x小于0时,我们可以人为的将其乘以一个比如0.01或者α这样的系数来阻止梯度为零。

随着神经网络的发展,后续也出现了一些从结构上解决梯度难以传递问题的方法,比如元模型,LSTM模型或者现在图像分析中用到非常多的使用跨层连接的方式来使其梯度更容易传播。

五.深度学习入门

经过上个世纪九十年代神经网络的第二次低谷,到2006年,神经网络再一次回到了大众的视野,而这一次回归之后的热度远比之前的任何一次兴起时都要高。神经网络再次兴起的标志性事件就是Hinton等人在Salahudinov等地方发表的两篇关于多层次神经网络(现在称作“深度学习”)的论文。

其中一篇论文解决了之前提到的神经网络学习中初始值如何设置的问题,解决途径简单来说就是假设输入值是x,那么输出则是解码x,通过这种方式去学习出一个较好的初始化点。而另一篇论文提出了一个快速训练深度神经网络的方法。其实造成现在神经网络热度现状的原因还有很多,比如当今的计算资源相比当年来说已经非常庞大,而数据也是如此。在十九世纪八十年代时期,由于缺乏大量的数据和计算资源,当时很难训练出一个大规模的神经网络。

神经网络早期的崛起主要归功于三个重要的标志性人物Hinton、Bengio和LeCun。Hinton的主要成就在于布尔计算机(Restricted BoltzmannMachine)和深度自编码机(Deep autoencoder);Bengio的主要贡献在于元模型在深度学习上的使用取得了一系列突破,这也是深度学习最早在实际应用中取得突破的领域,基于元模型的language modeling在2003时已经可以打败当时最好的概率模型;LeCun的主要成就代表则是关于CNN的研究。深度学习崛起最主要的表现是在各大技术峰会比如NIPS,ICML,CVPR,ACL上占据了半壁江山,包括Google Brain,Deep Mind和FaceBook AI等在内的研究部门都把研究工作的中心放在了深度学习上面。

神经网络进入公众视野后的第一个突破是在语音识别领域,在使用深度学习理论之前,人们都是通过使用定义好的统计库来训练一些模型。在2010年,微软采用了深度学习的神经网络来进行语音识别,从图中我们可以看到,两个错误的指标均有将近三分之一的大幅度下降,效果显著。而基于最新的ResNet技术,微软公司已经把这个指标降到了6.9%,每一年都有一个明显的提升。

到2012年,在图片分类领域,CNN模型在ImageNet上取得了一个较大的突破。测试图片分类的是一个很大的数据集,要将这些图片分成1000类。在使用深度学习之前,当时最好的结果是错误率为25.8%(2011年的一个结果),在2012年Hinton和它的学生将CNN应用于这个图片分类问题之后,这个指标下降了几乎10%,自2012年之后,我们从图表中可以观察到每一年这个指标都有很大程度的突破,而这些结果的得出均使用了CNN模型。

深度学习模型能取得如此大的成功,在现代人看来主要归功于其层次化的结构,能够自主学习并将数据通过层次化结构抽象地表述出来。而抽象出来的特征可以应用于其他多种任务,这也是深度学习当前十分火热的原因之一。

下面介绍两个非常典型且常用的深度学习神经网络:一个是卷积神经网络(CNN),另外一个是循环神经网络。

1.卷积神经网络

卷积神经网络有两个基本核心概念,一个是卷积(Convolution),另一个是池化(Pooling)。讲到这里,可能有人会问,为什么我们不简单地直接使用前馈神经网络,而是采用了CNN模型?举个例子,对于一个1000*1000的图像,神经网络会有100万个隐层节点,对于前馈神经网络则需要学习10^12这样一个庞大数量级的参数,这几乎是无法进行学习的,因为需要海量的样本。但实际上对于图像来说,其中很多部分具有相同的特征,如果我们采用了CNN模型进行图片的分类的话,由于CNN基于卷积这个数学概念,那么每个隐层节点只会跟图像中的一个局部进行连接并扫描其局部特征。假设每个隐层节点连接的局部样本点数为10*10的话,那么最终参数的数量会降低到100M,而当多个隐层所连接的局部参数可以共享时,参数的数量级更会大幅下降。

从下图中我们可以直观的看出前馈神经网络和CNN之间的区别。图中的模型从左到右依次是全连接的普通的前馈神经网络,局部连接的前馈神经网络和基于卷积的CNN模型网络。我们可以观察到基于卷积的神经网络隐层节点之间的连接权重参数是可以共享的。

另一个操作则是池化(Pooling),在卷积生成隐层的基础上CNN会形成一个中间隐层——Pooling层,其中最常见的池化方式是Max Pooling,即在所获得的隐层节点中选择一个最大值作为输出,由于有多个kernel进行池化,所以我们会得到多个中间隐层节点。

那么这样做的好处是什么呢?首先,通过池化操作会是参数的数量级进一步缩小;其次就是具有一定的平移不变性,如图所示,假设图中的九个隐层节点中的其中一个发生平移,池化操作后形成的Pooling层节点仍旧不变。

CNN的这两个特性使得它在图像处理领域的应用非常广泛,现在甚至已经成为了图像处理系统的标配。像下面这个可视化的汽车的例子就很好地说明了CNN在图像分类领域上的应用。将原始的汽车图片输入到CNN模型之中后,从起初最原始的一些简单且粗糙的特征例如边和点等,经过一些convolution和RELU的激活层,我们可以直观的看到,越接近最上层的输出图像,其特征越接近一辆汽车的轮廓。该过程最终会得到一个隐层表示并将其接入一个全连接的分类层然后得出图片的类别,如图中的car,truck,airplane,ship,horse等。

下图是早期LeCun等人提出的一个用于手写识别的神经网络,这个网络在九十年代时期已经成功运用到美国的邮件系统之中。感兴趣的读者可以登录LeCun的网站查看其识别手写体的动态过程。

当CNN在图像领域应用十分流行的同时,在近两年CNN在文本领域也得到了大规模应用。例如对于文本分类这个问题,目前最好的模型是基于CNN模型提出来的。从文本分类的特点来看,对一个文本的类别加以鉴别实际上只需要对该文本中的一些关键词信号加以识别,而这种工作非常适合CNN模型来完成。

实际上如今的CNN模型已经应用到人们生活中的各个领域,比如侦查探案,自动驾驶汽车的研发,Segmenttation还有Neural Style等方面。其中Neural Style是个非常有趣的应用,比如之前App Store中有个非常火的应用Prisma,可以将使用者上传的照片转换成其他的风格,比如转换成梵高的星空一样的画风,在这其中就大量应用了CNN的技术。

2. 循环神经网络

关于循环神经网络的基本原理如下图所示,从图中可以看循环神经网络的输出不仅依赖于输入x,而且依赖于当前的隐层状态,而这个隐层状态会根据前一个x进行更新。从展开图中可以直观的理解这个过程,第一次输入的中间隐层状态S(t-1)会影响到下一次的输入X(t)。循环神经网络模型的优势在于可以用于文本、语言或者语音等此类序列型的数据,即当前数据的状态受到此前数据状态的影响。对于此类数据,前馈神经网络是很难实现的。

提到RNN,那就不得不介绍一下之前提到的LSTM模型。实际上LSTM并不是一个完整的神经网络,它只是一个RNN网路中的节点经过复杂处理后的结果。LSTM中包含三个门:输入门,遗忘门和输出门。

这三个门均用于处理cell之中的数据内容,分别决定是否要将cell中的数据内容输入、遗忘和输出。

最后介绍一个目前非常流行的交叉领域的神经网络的应用——将一个图片转换成描述形式的文字或者该图片的title。具体的实现过程可以简单的解释为首先通过一个CNN模型将图片中的信息提取出来形成一个向量表示,然后将该向量作为输入传送到一个训练好的RNN模型之中得出该图片的描述。

直播视频回顾地址:https://yq.aliyun.com/video/play/1370?spm=a2c41.11124528.0.0


B深度学习并非万能:你需要避免这三个坑(1460)

深度学习并非万能:你需要避免这三个坑

文|George Seif,汇编:数据简化社区秦陇纪,2018-08-28Tue

人工智能专家George Seif撰写博文《调整神经网络参数——三你不应该使用深度学习的理由》(Tweaking Neural Net Parameters--Three reasons that you should NOTuse deep learning),介绍当前深度学习比较火热的情景下需要避免的三个坑,本文为汉译版。

图1 调整神经网络参数Tweaking Neural Net Parameters

深度学习在过去几年一直是人工智能领域最热门的话题。事实上,正是它激发科学家、政府、大公司以及其他所有人对人工智能的极大新兴趣!这是一门很酷的科学,具有潜在的巨大的实用性和积极的应用。它正被用于金融、工程、娱乐、消费产品和服务等领域。

但是,所有应用都需要使用到深度学习吗?当我们开展一个新的项目时,我们需要不自觉地一开始就使用深度学习吗?在有些情况下,使用深度学习是不合适的,我们需要选择一些别的方案。让我们来探讨一下这些情况吧。

一、深度学习不适用于小数据集

为了获得高性能,深度网络需要非常大的数据集。标注的数据越多,模型的性能就越好。获得标注良好的数据既昂贵又耗时。雇佣人工手动收集图片并标记它们根本没有效率可言。在深度学习时代,数据无疑是最有价值的资源。

最新的研究表明,实现高性能的网络通常需要经过数十万甚至数百万样本的训练。对于许多应用来说,这样大的数据集并不容易获得,并且获取成本高且耗时。对于较小的数据集,传统的ML算法(如回归、随机森林和支持向量机)通常优于深度网络。

二、深度学习运用于实践是困难且昂贵的

深度学习仍然是一项非常尖端的技术。您可以像许多人一样获得快速简便的解决方案,特别是使用广泛使用的API,例如Clarifai和Google的AutoML。但如果你想做一些定制化的事情,这样的一些服务是不够的。除非你愿意把钱花在研究上,否则你就会局限于做一些和其他人稍微相似的事情。这也是很昂贵,不仅是因为需要获取数据和计算能力所需的资源,还因为需要雇佣研究人员。深度学习研究现在非常热门,所以这三项费用都非常昂贵。当你做一些定制化的事情时,你会花费大量的时间去尝试和打破常规。

三、深层网络不易解释

深层网络就像是一个“黑盒子”,即使到现在,研究人员也不能完全理解深层网络的“内部”。深层网络具有很高的预测能力,但可解释性较低。由于缺乏理论基础,超参数和网络设计也是一个很大的挑战。

虽然最近有许多工具,如显著性映射(saliencymaps)和激活差异(activation differences),它们在某些领域非常有效,但它们并不能完全适用于所有应用程序。这些工具的设计主要用于确保您的网络不会过度拟合数据,或者将重点放在虚假的特定特性上。仍然很难将每个特征的重要性解释为深层网络的整体决策。

另一方面,经典的ML算法,如回归或随机森林,由于涉及到直接的特征工程,就很容易解释和理解。此外,调优超参数和修改模型设计的过程也更加简单,因为我们对数据和底层算法有了更深入的了解。当必须将网络的结果翻译并交付给公众或非技术受众时,这些内容尤其重要。我们不能仅仅说“我们卖了那只股票”或“我们在那个病人身上用了这药”是因为我们的深层网络是这么说的,我们需要知道为什么。不幸的是,到目前为止,我们所掌握的关于深度学习的所有证据或者解释都是经验主义的。(来源;人工智能学家)


C 2018年全球AI突破性技术TOP10 (5240)

2018年全球AI突破性技术TOP10

文|高德纳,汇编:数据简化社区秦陇纪,2018-08-28Tue

人工智能是个高科技、宽领域、多维度、跨学科的集大成者,从立足大数据、围绕互联网的纯计算机应用,逐步衍生到人们日常生产生活的方方面面,在细微之处改善和改变着我们。目前,不少新技术、新模式已经逐步投入到现实运用,但是多数领域仍然处在推广、试验、研究阶段,如何把握推广人工智能技术的重大机遇,让更广大的老百姓像普及手机一样,用上人工智能,这是我们这一代人必须面对的时代发展“必答题”。

2018年人工智能技术已在多方面实现突破进展,国内外的科技公司都在不断尝试将人工智能应用于更多领域,不论科技巨头还是初创企业,都在致力于不断创新,推动技术进步,接下来我们就来看看十项中外人工智能领域富有突破性的技术。

1 基于神经网络的机器翻译

入选理由:翻译是“自然语言处理”的最重要分支,也是比较难的一支。早年间,机器翻译还被视作 “低级翻译”被嘲讽,如今神经网络的机器翻译准确性大大提高,堪比专业人工翻译。我们熟知的谷歌翻译、微软语音翻译以及搜狗语音识别等都是基于此项技术。

技术突破:机器翻译是科研人员攻坚了数十年的研究领域,其技术核心是一个拥有海量结点的深度神经网络,可以自动的从语料库中学习翻译知识。

人类大脑处理语言的过程毫无疑问是最为复杂的认知过程之一,曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。神经网络中的多层感知就试图模拟人类大脑神经多层传递处理的过程,但通常不超过三层。2006年,科学家提出了神经网络的深度学习算法,使至少具有7层的神经网络训练成为可能。由于能够比较好地模拟人脑神经元多层深度传递的过程,它在解决一些复杂问题的时候有着非常明显的突破性表现。

今年3月,微软宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平,实现了自然语言处理的又一里程碑突破,将机器翻译超越人类业余译者的时间,提前了整整7年。

重大意义:基于神经网络的机器翻译,直接改善了之前逐词直译的效果,升级为以整个句子为单位进行翻译。

点评:机器翻译在手,纵横四海不是问题。

2 基于多传感器跨界融合的机器人自主导航

入选理由:机器人的终极目标是为人类提供智能化的服务,其中自主导航是近年来人类一直想要攻克的技术壁垒,臻迪(PowerVision)通过声呐、视觉等多传感器融合,使其水下机器人能实现自主导航及智能识别,在智能机器人领域内取得了突破性进展。

技术突破:随着机器人的应用场景及作业任务越来越复杂,单一传感器难以满足应用需求。而多传感器的信息融合对硬件资源依赖程度比较高,臻迪(PowerVision)基于自身在机器人行业深耕细作多年所积累的各类传感器、惯性导航、运动控制、相机、视觉检测/识别、SLAM等核心技术,以及深度学习的深入研究,通过嵌入式端一体化集成平台的系统架构及优化设计,突破了移动平台硬件资源的限制,使水下机器人更加准确、智能、全面地感知目标,并具备对水下目标进行锁定、检测、识别、跟随的能力。

重大意义:通过导航控制、声呐、视觉技术与深度学习的结合实现了机器人在全局环境中的定位及自主导航,以及智能化应用,为人类探索更为广阔的水下应用提供了强有力的技术保障。

点评:这也许是未来人工智能落地的最佳方式

3 DuerOS对话式人工智能系统

入选理由:DuerOS3.0能够为用户带来了划时代的自然对话交互,包括情感语音播报、声纹识别等能力在内的自然语言交互技术的全面升级。

技术突破:DuerOS是百度度秘事业部研发的对话式AI操作系统,拥有10大类目的250多项技能。DuerOS包括了从语音识别到语音播报再到屏幕显示的一个完整交互流程,以及背后支撑交互的自然语言理解、对话状态控制、自然语言生成、搜索等等核心技术,这些技术支撑着应用层和能力层的实现。

2018年7月4日,最新的DuerOS 3.0正式发布,使赋能的产品能够实现语音多轮纠错,进行复杂的递进意图识别与带逻辑的条件意图识别,从而更加准确判断用户意图,最终实现功能升维——利用扩展特征理解用户行为。基于此,DuerOS3.0提供了包括有屏设备解决方案、蓝牙设备解决方案和行业解决方案等在内超过20个跨场景、跨设备的解决方案。

重大意义:DuerOS率先开启AI时代商业化,将为生态合作伙伴从产品、内容与推广三大方面提供完整的应用方案支持,加速AI设备落地。

点评:小度小度,请问下一个技术我写什么?

4 移动AR技术

入选理由:未来AR与AI需要相互加持,可以将AR比喻成AI的眼睛。

技术突破:集成了众多计算机科技和图形图像学技术,包括实时渲染技术、空间定位追踪、图像识别、人机交互、显示技术、云端存储、数据传输、内容开发工具等领域。

AR技术不仅展现了真实世界的信息,而且将虚拟的信息同时显示出来,两种信息相互补充、叠加。在视觉化的增强现实中,用户利用头戴显示器,把真实世界与电脑图形多重合成在一起,便可以看到真实的世界围绕着它。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等新技术与新手段,为人类感知信息提供了新的方式。

未来移动AR技术将向创意性AR应用、基于位置的AR体验、多人AR体验发展。

重大意义:随着苹果ARKit、谷歌 ARCore 的发布,移动AR在两大移动平台上均意义重大。这也意味着,全球5亿台支持AR功能的移动设备正在吸引所有的公司入局,这些公司正在将数据与 API 相结合,为用户创造新的 AR 体验。

点评:感觉自己离进入真正的二次元世界不远了。

5 生物特征识别技术

入选理由:行为识别技术应用于安防,为安全又上了一道锁。

技术突破:店铺安装摄像头已经是一件非常普遍的行为,但普通的摄像头只能纪录店铺内人们的行为,如果发现盗窃需要通过观看监控记录人工排查,耗时费力。

而近日,日本电信巨头宣布已研发出一款名为“AI Guardman”的新型人工智能安全摄像头,这款摄像头可以通过对人类动作意图的理解,在盗窃行为发生前就能准确预测,从而帮助商店识别偷窃行为,发现潜在的商店扒手。

这套人工智能系统采用开源技术,能够实时对视频流进行扫描,并预测人们的姿势。当遇到监控中出现可以行为时,系统会尝试将姿势数据与预定义的“可疑”行为匹配,一旦发现就会通过相关手机App来通知店主。据相关媒体报道,这款产品使得商店减少了约四成的盗窃行为。

重大意义:通过行为识别技术,能够第一时间发现犯罪分子,预测犯罪行为,有效保护店铺安全。

点评:去日本的商店买东西一定要果断,被误会成小偷就不好啦。

6 机器人流程自动化

入选理由:机器人流程自动化能够帮助甚至代替人类负担大量简单且单一、重复而繁重的工作,并且效率更高、零失误。

技术突破:机器人流程自动化(RPA)是通过使用高性能认知技术实现业务的自动化和工作的效率。人类只需在操作界面上编写需要人工完成的工作流程,即可处理各种业务,如浏览器,云,以及各种软件。

Gartner数据显示,在过去的一年中,全球范围中大型商业巨头里有300家陆陆续续开展了RPA工程,将原先手工化的流程进行自动化改革。随着科技的进步RPA将融入更多人工智能技术,即智能流程自动化(IntelligentProcess Automation)。相当于在基于规则的自动化基础(RPA)之上增加基于深度学习和认知技术的推理、判断、决策能力。

重大意义:机器人流程自动化能够大幅提升企业的工作效率,减少人员投入,帮助企业降低成本,让人类释放生产力,腾出双手去做价值更高的事情。

点评:小白领被吓的瑟瑟发抖,请老板别炒我。

7 像素级声源定位系统PixelPlayer

入选理由:从视觉和听觉信号角度实现声源分离,开辟研究新途径。

技术突破:在进行音乐编辑时,一般是利用均衡器将音乐中的低音部分调出来,而麻省理工学院计算机科学和人工智能实验室的研究人员发现了更好的解决方案。他们所研发的新系统PixelPlayer。

PixelPlayer能够通过结合声音和图像信息,机器学习系统能以无监督的方式从图像或声音中识别目标、定位图像中的目标,以及分离目标产生的声音。当我们给定一个输入视频,PixelPlayer可以联合地将配音分离为目标组件以及在图像帧上定位目标组件。PixelPlayer允许在视频的每个像素上定位声源。

简单点说就是PixelPlayer能识别出视频中哪个物体发出哪些声音,并将声音分离出来。

重大意义:PixelPlayer能够过滤伴奏、识别音源,不仅能帮助人类处理音乐,还能够帮助机器人更好地理解其他物体所产生的环境声音。

点评:如果老师用了这个系统,就能立刻找出课堂交头接耳的同学。

8 兼顾高精度学习和低精度推理的深度学习芯片

入选理由:这个芯片可以涵盖了目前已知的最佳训练和最好推理,能够保持所有处理器组件能够得到数据和工作。

技术突破:该深度学习芯片是IBM正在研究的项目之一。IBM将这个芯片的目标利用率定在90%。这将是一个质的突破,为了实现这一突破,IBM的研发团队做了两项创新。

首先,利用率低通常是因为存在于芯片周围的数据流瓶颈。为了突破这些信息障碍,该项目的团队开发了一个“定制”的数据流系统。该数据流系统是一种网络方案,可以加速数据从一个处理引擎到下一个处理引擎的传输过程。它还针对要处理的是学习任务还是推理任务以及不同的精度进行了优化。

第二项创新是团队使用专门设计的“便笺本”形式的片上存储器,而不是CPU或GPU上的传统高速缓冲存储器。构建它的目标是为了保持数据流经芯片的处理引擎,并确保数据在恰当的时间处于正确的位置。为了获得90%的利用率,IBM必须使设计出的便笺本具有巨大的读/写带宽。

重大意义:该芯片可以执行当前所有的三种主要深度学习AI:卷积神经网络(CNN)、多层感知器(MLP)和长-短期记忆(LSTM)。这些技术共同主导了语言、视觉和自然语言处理。

点评:目前深度学习技术陷入瓶颈,IBM的深度学习芯片也许能够扭转这一局势。

9 智能代理训练平台

入选理由:智能代理技术使计算机应用趋向人性化、个性化。它能够以主动服务的方式完成的一组操作的机动计算实体,不需要人的即时干预。

技术突破:智能代理技术具有解决问题所需的丰富知识、策略和相关数据,能够进行相关的推理和智能计算,智能代理还可以在用户没有给出十分明确的需求时推测出用户的意图、兴趣或爱好,并按最佳方式代为其完成任务,并能自动拒绝一些不合理或可能给用户带来危害的要求;智能代理还从经验中不断自我学习,能够根据环境调整自身的行为,从而提高处理问题的能力。

智能代理技术可以应用于商业、智能搜索代理、数字图书馆、电子商务和远程教育的研究等,现在它也被应用于游戏领域。

Unity是全球领先的游戏开发公司之一,去年其推出了机器学习平台ML-Agents,让AI开发人员和研究人员在Unity模拟和游戏环境中,使用演化策略、深度强化学习和其他训练方法来训练智能代理。这种模拟训练的方法在工业机器人、无人机、无人驾驶车辆和游戏角色设计中均有着广泛应用。

重大意义:Unity以使机器学习研究人员获得最强大的训练场景为使命,为快速增长的AI爱好者群体探索深度学习提供了一个研究平台。

点评:NPC越来越聪明,对于游戏手残党来说可能不是个好事。

10 入耳式人工智能

入选理由:耳机从外变成了智能穿戴设备,可以无限延续使用时间和场景。

技术突破:苹果在今年即将推出的AirPods 2中加入了Siri唤起、内置芯片等等,可以收集行走步数、心率数据和体温等等,还可以通过内置陀螺仪捕捉用户头部移动状况甚至定位位置,当然也可以通过麦克风接受命令,再通过扬声器进行反馈。

谷歌的实时翻译无线耳机PixelBuds常被拿来与AirPods相比,PixelBuds对Google Assistant的唤起十分迅速,只要把手指放在耳机的触控板上,几乎同一时刻就可以和GoogleAssistant进行对话。

AirPods与PixelBuds让我们重新定义了耳机对人类的作用,相比手腕上的智能手表,耳机显然可以更方便的进行语音交互,在接收信息时更无需占用宝贵的视觉空间。还将智能音箱式的远场交互变成更自然也更快捷的近场交互。

重大意义:智能耳机让智能助理更接近随身随行,苹果、谷歌的涉足,必将带起一波耳中AI的风潮。

点评:现在我们手机不离手,以后可能要耳机不离耳了。

我们看到这些科技公司或者科研团队,学习翻译、研究捕鱼、开发游戏、做着音乐……看似“不务正业”,而这恰恰证明了,人工智能不单单是一种技术或一个产品。

从IBM、苹果,到谷歌,百度,所有的人工智能巨头都在尝试软件、硬件、应用场景的联通。聪明的科技公司都不再单一的专注于自己的传统业务,而是着眼于未来,不断创新技术,跨界融合打造一个整合的生态系统。(来源:艾瑞网)


D新一代人工智能领域十大最具成长性技术展望(2114)

新一代人工智能领域十大最具成长性技术展望

文|不详,汇编:数据简化社区秦陇纪,2018-08-28Tue

据悉,当前,全球正在经历科技和产业高度耦合、深度迭加的新一轮变革,大数据的形成、理论算法的革新、计算能力的提升及网络设施的演进驱动人工智能进入新一轮创新发展高峰期,新技术持续获得突破性进展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等以应用为导向的新特征。加强新一代人工智能技术的前瞻预判,准确把握全球技术创新动态及发展趋势,将为行业健康发展、资金有序进入、政策规划出台、新兴市场开拓等提供具备决策参考价值和实践指导意义的智力支撑。

围绕于此,中国电子学会依据国家出台的《新一代人工智能发展规划》、《促进新一代人工智能产业发展三年行动计划(2018-2020年)》等一系列政策规划,调研走访了一批在新一代人工智能技术及产业方面具备领先水平和特色的龙头企业,组织拜访了来自于知名高校、研究机构的人工智能相关领域专家学者,系统梳理了权威智库和知名战略咨询公司的最新报告,遴选了十项最具特色的成长性技术,得出以下结论:

1、对抗性神经网络

对抗性神经网络是指由一个不断产生数据的神经网络模块与一个持续判别所产生数据是否真实的神经网络模块组成的神经网络架构,创造出近似真实的原创图像、声音和文本数据的技术。该技术有望大幅提升机器翻译、人脸识别、信息检索的精度和准确性,随着三维模型数据序列能力的提升,未来将在自动驾驶、安防监控等领域产生可观的应用价值。

图1对抗性神经网络中产生数据与判别数据持续进行

资料来源:《麻省理工科技评论》

2、胶囊网络

网络胶囊是指在深度神经网络中构建多层神经元模块,用以发现并存储物体详细空间位置和姿态等信息的技术。该技术能使机器在样本数据较少情形下,快速识别不同情境下的同一对象,在人脸识别、图像识别、字符识别等领域具有广阔的应用前景。

3、云端人工智能

云端人工智能是指将云计算的运作模式与人工智能深度融合,在云端集中使用和共享机器学习工具的技术。该技术将庞大的人工智能运行成本转移到云平台,能够有效降低终端设备使用人工智能技术的门槛,有利于扩大用户群体,未来将广泛应用于医疗、制造、能源、教育等多个行业和领域。

图3推出人工智能服务的主要云计算公司

资料来源:中国电子学会整理

4、深度强化学习

深度强化学习是指将深度神经网络和具有决策能力的强化学习相结合,通过端到端学习的方式实现感知、决策或感知决策一体化的技术。该技术具有无需先验知识、网络结构复杂性降低、硬件资源需求少等特点,能够显著提升机器智能适应复杂环境的效率和健壮性,将在智能制造、智能医疗、智能教育、智能驾驶等领域具有广阔发展前景。

图4深度强化学习具有良好的结构特点

5、智能脑机交互

智能脑机交互是指通过在人脑神经与具有高生物相容性的外部设备间建立直接连接通路,实现神经系统和外部设备间信息交互与功能整合的技术。该技术采用人工智能控制的脑机接口对人类大脑的工作状态进行准确分析,达到促进脑机智能融合的效果,使人类沟通交流的方式更为多元和高效,未来将广泛应用于临床康复、自动驾驶、航空航天等多个领域。

图5智能脑机交互使人类沟通交流高效化

6、对话式人工智能平台

对话式人工智能平台是指融合语音识别、语义理解、自然语言处理、语音合成等多种解决方案,为开发者提供具备识别、理解及反馈能力的开放式平台的技术。该技术能够实现机器与人在对话服务场景中的自然交互,未来有望在智能可穿戴设备、智能家居、智能车载等多个领域得到大规模应用。

资料来源:IDC,中国电子学会整理

7、情感智能

情感智能是指利用人工智能手段模拟表情、语气、情感等类人化情绪响应,以打造具有情绪属性的虚拟形象的技术。该技术可赋予机器设备更好的对人类情感的识别、理解和引导能力,为用户带来更具效率和人性化的交互体验,未来将在智能机器人、智能虚拟助手等领域得到更为频繁和深入的应用。

图7情感智能技术将模拟人的情绪

资料来源:《人类神经科学前沿》

8、神经形态计算

神经形态计算是指仿真生物大脑神经系统,在芯片上模拟生物神经元、突触的功能及其网络组织方式,赋予机器感知和学习能力的技术。该技术的目标在于使机器具备类似生物大脑的低功耗、高效率、高容错等特性,将在智能驾驶、智能安防、智能搜索等领域具有广阔应用前景。

图8神经形态计算的结构

资料来源:中国电子学会整理

9、元学习

元学习是指将神经网络与人类注意机制相结合,构建通用算法模型使机器智能具备快速自主学习能力的技术。该技术能够使机器智能真正实现自主编程,显著提升现有算法模型的效率与准确性,未来的进一步应用将成为促使人工智能从专用阶段迈向通用阶段的关键。

图9元学习实现快速自主学习

10、量子神经网络

量子神经网络是指采用量子器件搭建神经网络,优化神经网络结构和性能的技术。该技术充分利用了量子计算超高速、超并行、指数级容量的特点,有效缩短了神经网络的训练时间,未来将在人脸识别、图像识别、字符识别等领域具有重要应用价值和广阔前景。

图10量子神经网络结构示意图

资料来源:联合量子研究院(JQI)

来源:中国电子学会


E先进制造业-数字化解决方案(64)

先进制造业-数字化解决方案

文|B&P,汇编:数据简化社区秦陇纪,2018-08-28Tue

-END-

参考文献(354字)

1.产业智能官.【人工智能】2018北京世界机器人大会,新一代人工智能创新研讨会北京共识.[EB/OL]产业智能官,https://mp.weixin.qq.com/s?__biz=MzI3NDI4MzIyNQ==&mid=2247489459&idx=1&sn=4841172b46a6d88cacecc3ca45df81ee,2018-08-18.

x.秦陇纪.数据简化社区2018年全球数据库总结及18种主流数据库介绍;数据科学与大数据技术专业概论;人工智能研究现状及教育应用;信息社会的数据资源概论;纯文本数据溯源与简化之神经网络训练;大数据简化之技术体系.[EB/OL]数据简化DataSimp(微信公众号),http://www.datasimp.org,2017-06-06.

神经网络、深度学习、人工智能、智能制造资料汇编(16218字)

秦陇纪

简介:神经网络、深度学习、人工智能、智能制造2018资料汇编。(公号回复“AI2018资料”,文末“阅读原文”可下载48图18k字29页PDF资料,欢迎转发、赞赏支持科普。)蓝色链接“科学Sciences”关注后下方菜单项有文章分类页。作者:秦陇纪。来源:数据简化社区秦陇纪微信群聊公众号,引文出处请看参考文献。主编译者:秦陇纪,数据简化社区、科学Sciences、知识简化新媒体创立者,数据简化OS架构师、C/Java/Python/Prolog程序员,IT教师。每天大量中英文阅读/设计开发调试/文章汇译编简化,时间精力人力有限,欢迎转发/赞赏/加入支持社区。版权声明:科普文章仅供学习研究,公开资料©版权归原作者,请勿用于商业非法目的。秦陇纪2018数据简化DataSimp综合汇译编,投稿合作,或出处有误、侵权、错误或疏漏(包括原文错误)等,请联系[email protected]沟通、指正、授权、删除等。欢迎转发:“数据简化DataSimp、科学Sciences、知识简化”新媒体聚集专业领域一线研究员;研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。秦陇纪发起未覆盖各领域,期待您参与~~强烈谴责超市银行、学校医院、政府公司肆意收集、滥用、倒卖公民姓名、身份证号手机号、单位家庭住址、生物信息等隐私数据!

Appx.数据简化DataSimp社区简介(835字)

信息社会之数据、信息、知识、理论持续累积,远超个人认知学习的时间、精力和能力。应对大数据时代的数据爆炸、信息爆炸、知识爆炸,解决之道重在数据简化(DataSimplification):简化减少知识、媒体、社交数据,使信息、数据、知识越来越简单,符合人与设备的负荷。数据简化2018年会议(DS2018)聚焦数据简化技术(DataSimplificationTechniques):对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方面做简化,应用于信息及数据系统、知识工程、各类数据库、物理空间表征、生物医学数据,数学统计、自然语言处理、机器学习技术、人工智能等领域。欢迎投稿数据科学技术、简化实例相关论文提交电子版(最好有PDF格式)。填写申请表加入数据简化DataSimp社区成员,应至少一篇数据智能、编程开发IT文章:①高质量原创或翻译美欧数据科技论文;②社区网站义工或完善S圈型黑白静态和三彩色动态社区LOGO图标论文投稿、加入数据简化社区,详情访问www.datasimp.org社区网站,网站维护请投会员邮箱[email protected]。请关注公众号“数据简化DataSimp”留言,或加微信QinlongGEcai(备注:姓名/单位-职务/学校-专业/手机号),免费加入投稿群“科学Sciences学术文献”读者微信群等。长按下图“识别图中二维码”关注三个公众号(搜名称也行,关注后底部菜单有文章分类页链接):

数据技术公众号“数据简化DataSimp”:

科普公众号“科学Sciences”:

社会教育知识公众号“知识简化”:

(转载请写出处:©秦陇纪2010-2018汇译编,欢迎技术、传媒伙伴投稿、加入数据简化社区!“数据简化DataSimp、科学Sciences、知识简化”投稿反馈邮箱[email protected]。)

普及科学知识,分享到朋友圈

转发/留言/打赏后“阅读原文”下载PDF

阅读原文

微信扫一扫
关注该公众号

猜你喜欢

转载自blog.csdn.net/qq_28260611/article/details/82252511
今日推荐