红鸟沙龙(15) | 熊辉:人工智能算法中的人性和社会性

本期红鸟沙龙我们有幸邀请到了香港科大(广州)协理副校长、原百度研究院副院长熊辉教授作为主讲嘉宾,香港科技大学副校长汪扬教授和百度高级副总裁兼百度云业务董事长刘辉先生作为我们的对话嘉宾。今天的红鸟沙龙讨论围绕“人工智能算法中的人性与社会性”展开。

近年来人工智能和机器学习在越来越多地改变社会,但是人工智能在我们看来往往是黑匣子,我们如何理解人工智能是怎么工作的?人工智能的性质和人性有没有相似之处?能不能用人类的人性和社会性来理解和改进人工智能的算法?甚至你让机器去学习,如果机器厌学了怎么办?机器学内卷了又怎么办?让我们一起来分享人工智能算法中的人性和社会性。

红鸟沙龙第15期(上)

红鸟沙龙第15期(下)

算法中的道法自然

当我站在一个比较系统的宏观角度来观察所有的算法时,我用易经的理论对它们进行了梳理,可以分为不易、简易和变易。对抗生成学习算法也是如此。这个算法有非常多的应用,图像自动生成便是其中一个。比如大家所看到的这些图像,都是大众认知的明星脸,但其中没有一个是真实的人,这些人脸是通过学习现有明星的脸,然后自动生成符合大众流行审美观念的人脸图像。

59f860fd18ef734e61d28ce21f1c0888.png

它的另外一个作用就是Face Agent(一种人工智能模型,通常用于进行人脸识别任务),即用一张小孩的照片,通过算法去推算小孩成长后的样子。在实际应用中,这个算法可以用作寻找失踪儿童,只要你有失踪儿童的照片,就可以通过算法计算出该儿童在不同年龄阶段的样子。

在说明人的社会性体现前,我们首先介绍一下人工智能的两个学习概念。

第一个概念是监督式学习,监督式学习分为两种:差分式和生成式。

A)差分式学习是指在两类事物中,用线性和非线性分界,把两个事物进行分类。举例来讲,一组韩国人和一组日本人在聊天,我们可以迅速地判断一组说的是日语,另一组说的是韩语。差分式的学习方式就是判断是或否、0或1的关系,所以差分式学习是一种可以快速实践的方式。

B)生成式学习是一种从头到尾都学一遍的学习方式。举例来说,我们从头到尾把韩语学一遍,再把日语都学一遍,学完了之后,我们就知道他们说的是韩语还是日语,并且可以知道他们的说话内容。可是这个学习过程非常耗时,也需要投入大量的精力和资源。

第二个概念是对抗式生成学习,这个算法结合了上面差分式和生成式两个学习方式。

这个方式是先差分式快速判断需要学习的范畴,再进行生成式学习,形成终身对抗生成学习过程。

比如美国制裁中国,不让中国用GPS,中国就自己制造北斗系统。美国不断制裁中国的要害领域,中国就不停投入资源、时间和精力,不断的去弥补自己的弱点。这就结合了上述两种学习方式的优点。

无论是从人类或国家的层面,对抗式生成学习都符合自然规律——道法自然,从自然中学习是最高效的学习方法。在算法上,自然界成长出来的算法,也是最高效的,这就是所谓的道法自然。

易经的三义:「不易」、「简易」、「变易」与算法预测模型

「不易」的监督式学习

「不易」是世界各种各样不变的本质,这种本质就是事情不会因时间地点的变化而改变。这些规律性的本质就是算法模型的根本,所以建立预测模型就需要把握「不易」。

机器学习人工智能算法进行预测,是通过这个世界上万物「不易」的这一根本进行区分。比如苹果、香蕉,无论在形状上还是特点上,都有「不易」的根本。监督式学习方法,把握预测对象的「不易」特征,构建预测模型,那么机器就能从「不易」判别苹果和香蕉。

为了理解「不易」,需要靠「简易」。虽然世界的一切都在快速地变化,不断地演化,但是演化一定是符合规律的,探究「简易」,就能得出「不易」

Convolutional Neural Networks(CNN)--卷积神经网络

卷积神经网络,把事物细分化,找出「不易」的根本,建立预测模型。

比如不同人写的「X」都不一样,但如果把「X」转换成一个矩阵,数字化后,就会发现「不易」的根本。如下图,「X」中红色的框是一个「不易」的根本,每个「X」都会存在一个这样的结构。

d914ea760061d35d3b23aeba09b5af41.png

通过卷积神经网络来捕获「不易」。卷积的过程就是通过强化,减少数据缺失或去除杂讯,然后建立模型,令特点变得明显。这是一个「简易」的过程,把不同层次上的「不易」凸显出来。

整个算法过程通过卷积捕获「不易」,然后铺垫在另外一个层次上,再卷积,再去捕获新层次上的「不易」。通过这个过程就能抽取足够多的特征图像,然后通过激活函数(SoftMax),得出结果“是/否”。

大道至简,去粗取精

现今很多的技术都是「简易」。聚类(Clustering)是一种非监督性的学习方式,就是把相似分到同一组。比如一堆水果根据外表特征,分成橘子、苹果、香蕉。

聚类分为两种,一种是切分式(Partition),把事物切成不同种类,另一种是分层式(Hierarchical)。分层式分类是把事物不断向上拼合,绝对自由地,纯粹以默契的拼合方式。但这种方式因为太自由,没有预先的设定或先决的条件,前期的错误会不断累积,不断的放大,然后产生极端垄断,很难纠正。

聚类是一种「简易」,作为一种总结,帮助把握理解「不易」,然后为监督式学习提供帮助,但要注意的是「简易」的过程中很容易造成信息缺失,产生一些错误。

「变易」的算法

「变易」是说一切变化都是存在交换的,但也都遵循一定的规则和法则。

先介绍两个概念,勘探(Exploration)和开发(Exploitation)。

勘探(Exploration)是一个对外的,出去冒险尝试不同的事情,然后找出更好的资源和情况。

开发(Exploitation)是一个在内的,在一个舒适区内做自己擅长的事。

现在社会经常说内卷,内卷之所以发生,就是每个人都喜欢待在自己的舒适区里做自己擅长的工作,随着时间推演,学习和工作系统慢慢变得越来越封闭,但如果每个人都勇于往外延伸,不断的做交叉,那就可以帮助克服内卷。

强化学习算法(Reinforcement Learning)

强化学习算法是一种能同时兼顾勘探和开发的算法,做出内外的平衡。这一算法的本质是「从正确的错误中学习」,即不断在犯错和纠错中进行动态的前进。这是一种类人类的思考学习方式。从错误到纠正,如果收敛的效率高,学习能力就会强。在一个封闭的系统内,内卷必然会发生,所以系统保持开放,就能达到勘探(Exploration)和开发(Exploitation)的平衡,才能不断创新。

强化学习算法中存在两个实体:智能体(Agent)和环境(Environment)。算法是先通过感受环境的反馈,是友好还是敌意,然后再采取下一步行动。如果环境的反馈友好,智能体也会采取友好的行动,这样奖赏(Reward)就会产生,并形成新的状态,新的状态又可进一步接收奖赏。当然奖赏也有负面,那么智能体便会调整纠错,并形成新的状态。这样智能体和环境就会形成循环联系。

86a298d362a2a55e0baa94567ad2fc26.png

从正确的错误中学习就能在勘探(Exploration)和开发(Exploitation)之间取得平衡,形成一个客观机能(Objective Function),不断去最大化(Maximize),以达长远奖赏(Long Term Rewards)。这个长期优化的过程,就是一个不断把握「变易」的过程。

算法的中庸之道

算法过程中需要一个黄金分割的参数(Golden Mean),这个参数是用作评估算法的好坏,但这个「中庸」的参数是非常难调的。比如一个低误差(Low Bias),低差异(Low Variance),能拿捏在「过拟合」(Overfitting)和「欠拟合」(Underfitting)之间,那就能取得有机的「中庸之道」,这就是一个好算法。从算法角度来说,生活中提炼出来这些技术和事情本身就已是「中庸之道」。

391d6a65b5229471b4d26dba58db0ad7.png

02

 嘉宾互动环节

Q

刘先生:同侪压力(Peer pressure)就是同伴之间的激励让人学习得更快、更好。在同台竞技的过程中,学优点学方法,通过监督式学习(Supervise Learning)找出优秀的人才或管理者。另外的一种方法是找高人、贵人、敌人(竞争对手)。从高人身上学习优点,提升自己;从与竞争对手同场的竞争中争取进步和改变。在不同阶段寻求不同的方式帮助成长,不断的去学习当下的重点,做到针对性的深层次学习,以发挥最高的效率。

A

熊教授:在人的成长过程中, 要找到高人、贵人、敌人,不同阶段都需要一个不同的人。贵人是一个很好的导师; 高人是一个很好的学习榜样; 敌人是一个竞争对手并可以帮助你成长。让自己学习当务重点,有效和针对地深层次学习,发挥效率。

Q

汪教授:从机器学习谈到一个社会问题——内卷的KPI(关键绩效指标)。中国人的特点就是在规则中发挥聪明才智,然后把KPI做到最好,但这带来的问题是创新往往会被KPI绑架,包括在机器学习中都能体现出来。要达到多元化,有个「随机梯度下降」的理念,由原本走的「中庸之道」,改变成「随机梯度下降」,例如先设立几个KPI,然后每年随机选一个,再不断的往下走,最后训练的结果就能更稳定。

A

熊教授:KPI这个概念是单单的目标优化,KPI的方式就是从上往下给你派任务,确立该完成的工作量。而OKR(目标与关键结果:通过具体和可衡量的行动来实现目标)是一个自下而上的方式,由个体去定立边界,再去设定指标,这有可能更有效地激发创造力和活力,但这种方式也有可能会改变算法目标函数的设置,方法是否可行,有待试验。但如果真的能同时结合OKR 和KPI 的优点,设立出更好的优化模型,有可能会设计出更好的强化学习算法。

Q

刘先生:在应用角度上,KPI跟OKR 都有各自的应用优势情景。比如KPI引导博弈,在稳定的企业里,事情比较易于预测,那KPI就差不了多少。相反在主观能动性强或变数创新性大的情景,OKR在当中的应用价值就相对较高,但要注意的是OKR需保持随化性的核心,如随意地产生惊喜(Surprise)来鼓励创新,避免博弈,而演变成KPI的变种。

从社会效应、流行趋势、经济效益上看,这三种学习算法哪一种现在的影响力比较重要?

A

熊教授:三种算法其实都很重要。比如强化学习,在学术界的作用非常多,应用也非常多;监督式学习由传统的学习算法到深度学习(Deep Learning)都产生非常多的应用;简易的应用是帮助理解数据,帮助判断能否转换成监督式学习或半监督式学习方式,然后进行下一步的建模,是一种自然和直观的方式。所以从流行趋势角度上,强化学习和深度学习都是热点。但如果在应用角度上,每一种算法都有各自的具体应用场景,也可互相结合。比如下围棋的Alpha Go就是用强化学习算法,但在整个训练学习环节中都贯穿着“简易”。

02

 观众提问环节

Q

:如何在人工智能算法上展现伦理?伦理该如何量化?这是一个参数还是一个指标?算法又如何工作呢?

A

熊教授:伦理的问题一部分也和使用有关。比如搜索引擎会因搜索量排序把奥巴马和猴子结合成搜索结果,这就导致了资料客观性和伦理上的问题。在人工智能使用过程中输入的数据就是关键,不正确的数据能把模型变成「怪物」。聊天机器人“微软小冰”,会因聊天对话涉及大量暴力而变得非常的暴力。所以如何去规范算法的使用就是关键的问题,尤其是数据输入更涉及隐私性问题。现在各个国家都会在数据的安全、可靠性和隐私性上做保护。我认为下一步伦理将会被监督、限制得更多,因为现在各方的呼吁出现得愈来愈多,只是现在还没有一种标准化的解决方案。

Q

:上层和下层的人应该如何沟通才能流畅呢?

A

熊教授:我认为交流是一个动态调整的过程,懂得随时降维和升维就能令沟通流畅、愉快。在跟别人聊天的时候,可以从交流判断对方的知识结构以及“知识树”,比较浅的就把自己的想法降维,相反“知识树”高的就把自己的想法升维。因为下层与上层沟通会感到吃力,上层与下层沟通又会感到乏味无趣,那么适当的维度调整就能令沟通畅通、愉快,当然自己也需要有一定的知识水平,才能有空间进行动态调整。古话说「宰相肚里能撑船」,如果自己是属于账前的位置,那就把自己的姿态摆低一点。这样跟上层或下层的人沟通就不会有障碍。

Q

:人工智能擅长去总结大量的数据,那么机器学习能不能透过大量的知识,进行自主发明或找出技术问题的解决方案?

A

熊教授:这是有可能的,人工智能在科学上的发现可能还会比开放性的题目(作诗写文)更容易达成。因为相对来说一个限定性场景的题目有一个更客观的标准和方向。如把前人的布板经验加上半导体系电路板结构化的知识,可能就可以通过人工智能的方法自动布缆线,但这个前提是数据要收集得足够多。

点击阅读原文 回顾精彩内容

猜你喜欢

转载自blog.csdn.net/HKUSTchinaoffice/article/details/131820858
今日推荐