腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

来源:腾讯AI Lab

刚刚过去的 2020 年算不上是平静的一年。贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷。即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景的腾讯 AI Lab 仍在这一年中做出了许多有价值的成果,其中包括将 AI 技术应用于疫情防控及病理筛查等其它医疗应用。同时,在以往研究的基础上,腾讯 AI Lab 在虚实集成世界与虚拟人、机器人、智慧药物研发、智慧农业、数据安全等领域都取得了进一步的重要进展。除了通过研究论文与开源项目与社区共享研究成果,腾讯 AI Lab 也在积极与高校、企业和研究机构合作,共同探索 AI 技术的潜在可能性。

下面首先将介绍 2020 年腾讯 AI Lab 在虚拟集成世界与机器人两大研究方向上的重要探索,然后会分 AI+医疗、AI+医药、AI+游戏、AI+农业、AI+内容几大主题总结这一年的行业应用成果,最后会概述这一年腾讯 AI Lab 在不同研究方向上的前沿进展。

一、双轨并行迈向通用人工智能:虚实集成世界与机器人

通用人工智能(AGI)是腾讯 AI Lab 成立伊始便已确立的核心长远目标,即创造能感知和理解真实世界并能有效执行各种不同任务的 AI 系统。为了实现这一目标,我们既需要软件上的突破,也需要硬件的迭代创新,还更需要目前行业普遍缺乏的软硬件的有效整合与集成。

2020 年,腾讯 AI Lab 和 Robotics X 实验室主任张正友博士提出了一个全新的概念:虚实集成世界(Integrated Physical-Digital WorldIPhD。它将当前在 AI、虚拟现实(VR)、增强现实(AR)、混合现实(MR)领域的前景展望乃至互联网和物联网的思想融合到了一起。在此基础上,一个通过互相交织和共同进化的软件与硬件、虚拟与现实、人与人工智能和机器人实现通用人工智能的愿景呈现在了世人眼前。目前腾讯 AI Lab 的所有研究都可以纳入到虚实集成世界的整体框架之下,有关该概念的更详细说明可参看张博士的演讲《Hello,虚实集成世界》

在虚实集成世界框架下,现实虚拟化、虚拟真实化、全息互联网、智能执行体四大发展方向将成为腾讯 AI Lab 和 Robotics X 实验室未来发展的重要指导。

下面将呈现腾讯 AI Lab 和 Robotics X 实验室在 2020 年取得的两项重大突破:虚拟人和机器人。我们也可将它们描述为虚拟集成世界框架下的软件和硬件智能执行体,同时也涵盖其它三大方向的一些核心技术,比如将人脸建模成数字版本就是一项现实虚拟化成果。

虚拟人:或是人类的虚拟化身,或是数字世界原住民

虚拟人是一类多模态技术,涉及计算机视觉、语音识别和生成、自然语言理解和生成等多种技术。根据来源的不同,虚拟人可大致分为两类:人类的数字化模型和虚拟世界原生虚拟人。

在建造人类的数字化模型方面,其实腾讯早在 2018 年就公布了一个基于演员姜冰洁建模得到的虚拟人 Siren。Siren 的动作和表情的拟真度都非常高,但由于采用了业内顶尖的动作捕捉和实时渲染技术,Siren 也具有相对较高的制作成本。

2020 年 10 月,腾讯 AI Lab 提出了一种基于 RGB-D 自拍视频创建高拟真度 3D 虚拟人的方法[1]。这项技术的核心是 3D 人脸 Mesh 估计、高清纹理贴图及法线细节贴图的合成算法,实现了成本极低但速度很快的 3D 人脸合成——仅需手机拍摄的视频作为输入和 30 秒处理时间即可!

基于人类建模的虚拟人具有丰富的应用场景,首当其冲的是作为人类在虚拟世界中的化身(avatar),让用户能以自然的形象参与虚拟世界的各种互动。另外,这项技术还能用于数字祭奠,纪念已逝之人;还能让人类演员在动画或游戏中扮演角色(比如基努·李维斯在《赛博朋克2077》中扮演的 Johnny Sliverhand)等应用。

而在创造虚拟世界原生虚拟人方面,腾讯 AI Lab 开发的多模态虚拟人 AI 艾灵」已于 2020 年 5 月与公众见面并于儿童节与青年演员歌手王俊凯和雄安孩子共同演绎了新歌《点亮》。现在,你也能在哔哩哔哩直播间观看艾灵 24 小时不间断卖力表演。

AI 艾灵是腾讯 AI Lab 多年来在视觉、语音、自然语言、人机交互等多模态方面的研究结晶。比如其采用的 DurIAN 语音合成框架[2]融合了腾讯 AI Lab 在语音领域多年深耕的经验,其不仅能实现精准且稳健的语音合成,而且还能生成与合成语音同步的高质量人脸表情。

DurIAN 工作过程示意图

虚拟世界原生虚拟人在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域有着广泛的应用前景。比如 AI 艾灵就是一个虚拟主播兼虚拟歌手,而且她还是一个创作型歌手,其采用的 SongNet 歌词创作模型可以根据任意格式和模板来生成相契合的文本,结合上面的 DurIAN 模型,艾灵就能以自然动听的声音唱出自己写的歌。有关 DurIAN 和 SongNet 的更多描述请参阅《唱作俱佳 腾讯AI艾灵领唱中国新儿歌》

虚拟人是虚实集成世界的重要组成部分。为了实现虚实集成世界的长远目标,我们还需要打造高速实时的物联网基础设施,构建高精度的真实世界模型和更有趣有用的虚拟世界,创造更安全高效的自动化机器。面向这一目标,腾讯正在砥砺前行。

移动机器人新突破:夯实 AI+机器人双基础

自 2018 年在深圳建立以来,腾讯 Robotics X 机器人实验室一直在与腾讯 AI Lab 合作推进「AI+机器人」的发展。2020 年 11 月,两项在移动机器人领域的新进展问世:一是让四足机器人 Jamoca 学会了走梅花桩,二是提出了一种能让轮式机器人自主平衡的新方法。

为了让 Jamoca 具备走梅花桩的能力,腾讯 Robotics X 实验室基于自研的机器人控制技术为 Jamoca 打造了一个能应对复杂环境的智能大脑。这个大脑让 Jamoca 能行走、小跑和跳跃,并赋予了它自主定位和避障的能力。这是腾讯 Robotics X 实验室在机器人感知以及运动规划与控制这些核心技术方向的一次能力展示,也显现了腾讯 Robotics X 实验室在整机系统设计与搭建方面的重要能力。

腾讯Robotics X四足移动机器人Jamoca梅花桩场景演示

而在自平衡研究上,腾讯 Robotics X 研究了能自行保持平衡的两轮式移动机器人,这是腾讯 Robotics X 实验室的首个整机自研机器人。它在传统轮式移动机器人的基础上,增加了动量轮及其电机驱动系统,使得机器人可以在静止及行进状态下均保持平衡不倒。基于该移动机器人平台的两篇研究论文被机器人行业国际顶会 IROS 2020 接受为 Oral 展示论文。该项目可以视作腾讯在机器人的机械设计和整机系统设计与搭建方向能力上的一大里程碑。

腾讯Robotics X自平衡轮式移动机器人

移动机器人是虚实集成世界框架中「智能执行体」的核心组成部分之一,也是实现通用人工智能终极目标的重要途径。接下来,除了继续让移动机器人能以更高的精度理解周围环境并能及时采取合理动作,腾讯 Robotics X 实验室和腾讯 AI Lab 还会继续研究如何将多模态 AI 能力与机器人相整合,从而创造出能密切参与人类生产生活,甚至可作为人类的同事和朋友的智能机器人。

二、行业应用,科技向善

「科技向善」是腾讯整个公司层面的核心使命愿景。作为腾讯大家庭的一员,腾讯 AI Lab 也同样秉承着这一使命。同时,作为 AI 科技的前沿探索者,腾讯 AI Lab 深知 AI 变革世界的潜力。因此,腾讯 AI Lab 在积极探索最前沿的 AI 技术的同时,也致力于将这样的潜力转化为切实可行的应用,以更好地服务用户和造福社会。

总体而言,这些探索可归纳为 AI+医疗、AI+医药、AI+游戏、AI+农业、AI+内容几大方向;其中包括使用 AI 助力抗击新冠疫情的实际应用、更经济高效的药物发现平台、智慧农业的进一步发展、机器翻译服务的再度升级以及基于复杂游戏场景攻坚真实世界难题的前沿探索成果。

AI+医疗:用AI抗击疫情和辅助病理医生

「AI+医疗」是腾讯 AI Lab 的核心研究方向之一,这也是一个有望造福全人类的研究课题。尤其是在新冠疫情肆虐全球一整年的背景下,AI 技术在医疗领域更是具有无可比拟的应用前景。

2020 年 7 月,钟南山院士团队与腾讯 AI Lab 联合发布了一项利用AI预测COVID-19患者病情发展至危重概率的研究成果,可分别预测5天、10天和30天内病情危重的概率,有助于合理地为病人进行早期分诊。该研究发表于国际顶级期刊 Nature 子刊 Nature Communications。同时,腾讯 AI Lab 也在第一时间开源了相关源代码并构建了一个免费的在线查询服务平台,为抗击新冠疫情贡献了自己的力量。

重症 COVID-19 患者早期分期的深度学习生存模型计算工具

  

而在之前的 4 月份,腾讯 AI Lab 联合研发的智能显微镜获得 NMPA 注册证,成为国内首个获准进入临床应用的智能显微镜产品。该智能显微镜产品集成了目前病理分析与诊断方面的最新技术,并针对病理医生工作流程和习惯进行多次产品迭代。测试表明,这款智能显微镜能有效提升病理医生的工作效率、病理分析的精确度和一致性,有望缓解医院(尤其是基层医院)病理医生数量短缺且经验不足的问题,也是精准医疗从前沿研究走向落地探索的一个良好例证。

之后的 11 月 25 日,在中华医学会病理分会细胞学组专家们的见证下,安必平、腾讯 AI  Lab 以及腾讯觅影正式启动「科技部医疗影像国家人工智能开放创新平台——宫颈液基细胞学AI数据库建设」项目,共同助力宫颈液基细胞学数据库建设与标准规范的制定,同时还将共同推进病理科数字化、病理大数据、人工智能应用等多个方向的探索。

AI+药物:首个AI驱动的药物发现平台问世

2020 年 7 月,腾讯 AI Lab 重磅发布了首个 AI 驱动的药物发现平台「云深智药」。云深智药整合了腾讯 AI Lab和腾讯云在前沿算法、优化数据库以及计算资源上的优势,提供覆盖临床前新药发现流程的五大模块,包括蛋白质结构预测、虚拟筛选、分子设计/优化、 ADMET 属性预测及合成路线规划。

云深智药平台地址:drug.ai.tencent.com

在蛋白质结构预测方面,云深智药采用了腾讯 AI Lab 自研的冠军级蛋白质结构预测技术,其中涵盖两项关键技术突破:一种基于自监督学习的蛋白质折叠方法和一种基于深度学习的可迭代方法。该技术在全球唯一的蛋白质结构预测自动评估平台 CAMEO 半年内五次夺得月度冠军,领先众多国际知名研究团队。11 月,腾讯 AI Lab 在国际顶级期刊 Nature 子刊《Nature Communications》发表了一项研究,介绍了采用「从头折叠」的蛋白质结构预测方法帮助解析 SRD5A2 晶体结构的成果,揭示了治疗脱发和前列腺增生的药物分子「非那雄胺」对于该酶的抑制机制。

在虚拟筛选方面,「云深智药」平台的虚拟筛选模块首次将元学习和深度神经网络算法用于LBDD(基于配体的药物设计)任务,通过AI「迁移」从其他靶点上面学习到的知识(如分子局部结构对靶点结合强度的影响),应用在目标靶点上来提高模型预测精度。目前该算法在数千个实验数据集上预测精度(预测活性与实验测量活性的相关性)的中位数从目前最高记录0.36提升到0.42,且筛选可用模型的百分比从56%提升到60%,突破业界标准。

在分子生成方面,云深智药的分子生成算法通过人工智能来学习现有数据库中小分子的各种结构信息和靶点的关系,进而能够学习到一个分子空间。现有模型目前支持对 319 个Kinase和 52 个 GPC R靶点进行分子生成。在分子生成这一过程中,云深智药的算法能够针对不同靶点在分子空间中的映射进行针对性采样,从而生成新的可能对靶点有活性的分子。

而在 ADMET 属性预测方面,云深平台也有出色表现,其药物小分子 ADMET 属性预测模块已在多个数据集上优于学术界现有最好模型 3%~11%;在合作伙伴的反馈中,平台的自研算法精度超过现有商业软件 6%~37% 不等。不仅如此,云深智药还采用了注意力等机制来可视化分子中的子结构对结果的影响,提供模型的可解释性。此外,平台还可提供本地版本等灵活的部署形式,保障用户的数据安全。

腾讯 AI Lab 还在继续推进基于 AI 的药物发现技术并为云深智药平台提供更多且范围更广的功能。除此之外,腾讯 AI Lab 还开源了一个大规模自监督分子图预训练模型GROVER。GROVER 是业界首个开源的基于深度图神经网络的图数据的大规模预训练模型,研究人员可以快速将其作为基础组件应用到需要对小分子进行编码的药物研发相关研究中,助力药物研发相关应用,例如分子属性预测、虚拟筛选等任务。

GROVER模型:https://drug.ai.tencent.com/cn/news/5

论文:https://arxiv.org/abs/2007.02835

AI+农业:iGrow 再获丰收,农业仿真落地现实世界

农业是事关人类生存的基础性行业。2020 年是腾讯 AI Lab 的「AI+农业」方向的又一个「丰收年」。

6 月份,腾讯 AI Lab 与世界著名农业学府荷兰瓦赫宁根大学(WUR)联办的「第二届国际智慧温室种植挑战赛」落幕。复赛的五支队伍挑战用 AI 和 IoT 物联网等前沿技术优化种植决策,并远程自动控制温室种植小番茄。复赛队的五个 AI 收成均超过有20年经验的农业种植专家组,其中冠军组 Automatoes 得到满分,实现亩产资源消耗减少16%,净利增加121%,充分展现了农业智能决策与温室自动控制的技术价值,和为农民减负的未来潜力。

此外,腾讯 AI Lab 还携手腾讯TEG架构平台部借助在第一届比赛中自研的 AI 算法和技术经验打造的云原生「腾讯AIoT智慧种植方案 iGrow在 2020 年已落地中国农业大省辽宁。第一期番茄试点迎来「小丰收」,每亩每季净利润增加数千元,iGrow 的商业价值得到了初步验证。

iGrow方案在辽宁温室试点

11 月 27 日,腾讯云(莘县)农业数字经济产业基地开园,这是腾讯集团在全国布局的首个农业数字经济产业基地。在新的一年里,腾讯 AI Lab 研发的 iGrow 解决方案将在该基地得到进一步的研究和应用。

继化肥、农药和大规模机械化种植之后,AI 和物联网有望让农业更进一步摆脱靠天吃饭的传统模式。通过分析和预测天气条件、温湿度、二氧化碳浓度变化动态调整种植策略,可让产量得到最优的提升。未来如果再配合自动化温室和垂直农场等新型农业技术,农业的生产效率可望实现质的飞跃,甚至可推广到原本不适宜农业生产的地区,助力消除人类社会仍未解决的饥饿问题。

AI+游戏:游戏仿真世界,「绝悟」AI 策略协作能力再升级

「AI+游戏」也是腾讯 AI Lab 深耕的研究领域。基于围棋、《王者荣耀》、《毁灭战士》、《星际争霸》等游戏平台,腾讯 AI Lab 已经研发许多有价值的前沿技术,并创造了中国国家队围棋训练专用 AI 等真实应用。此外,基于游戏环境开发的深度强化学习方法也在机器人等领域也有着非常重要的应用前景。

4 月份,腾讯 AI Lab 开发的围棋 AI「绝艺」与中国国家围棋队续约三年。作为「教练」,绝艺能从对弈、复盘、拆解、分析等多个维度,为中国围棋事业的发展提供助力,与人类顶尖棋手一起探索围棋的更多可能。

立足于国民手游《王者荣耀》,腾讯 AI Lab 开发出了策略协作型 AI 「绝悟」。2020 年,通过开放挑战和职业竞技,腾讯 AI Lab 在复杂环境决策、多智能体合作与博弈以及策略预测与规划方面的成果得到了展现:

●  2020 年 5 月 1-4 日,「绝悟」首次向玩家大规模开放。在此期间,从职业玩家到游戏主播再到普通业余玩家,大量不同游戏水平的游戏玩家向绝悟发起了挑战,见识了绝悟在战术规划、玩家行为预测、多英雄配合等方面的能力。

●   8 月 18 日,腾讯牵头构建的 AI 多智能体与复杂决策开放研究平台「开悟」正式对高校开放,同时开启了首届「开悟AI+游戏高校大赛」。依托于腾讯 AI Lab 和「王者荣耀」在算法、数据(脱敏)、算力方面的核心优势,向学术研究人员和算法开发者开放的开悟致力于发展成为国内领先、国际一流的研究与应用探索平台。

●   11 月 28 日,「绝悟完全体」进入王者峡谷并在 28-30 日间开启了三天公众体验。不同于 5 月份开放的版本,完全体版本的绝悟解禁了全部英雄池,掌握了所有英雄的所有技能,同时其它多项策略也得到优化,相关已被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录。

「开悟」官网链接:aiarena.tencent.com

为了让绝悟 AI 掌握全部英雄,腾讯 AI Lab 提出的一种新方法:课程自对弈学习(CSPL)。这是一种让 AI 从易到难的渐进式学习方法:先引入「老师分身」模型,每个 AI 老师通过深度强化学习技术在单个阵容上训练至精通;再引入一个 AI 学生模仿学习所有的 AI 老师;最终让绝悟掌握了所有英雄的所有技能,成为一代宗师。

CSPL流程图
设计思想:任务由易到难,模型从简单到复杂,知识逐层深入

《王者荣耀》等 MOBA 类游戏具有非常的复杂度,同时还涉及到非常多样化的合作与对抗博弈方式,因此非常适合作为策略型 AI 的开发平台,用于研发适用于不同场景的通用型 AI 技术。这类技术在许多真实世界场景中也有重要的应用价值,比如可以协调在路况复杂的城市道路上行驶的自动驾驶汽车以及为快递员或快递无人机规划配送区域和路线。

除此之外,2020 年 12 月,腾讯 AI Lab 绝悟团队借助「开悟」平台开发的足球 AI 「绝悟-WeKick 版本」在 Google Research 与英超曼城俱乐部联合举办的足球 AI Kaggle 竞赛上获得冠军。该竞赛使用 Google Brain 基于开源足球游戏 Gameplay Football 开发的强化学习环境 Google Research Football。这场 Kaggle 竞赛也是首场相关竞赛。不同于《王者荣耀》,足球 AI 比赛涉及到 11 个智能体的相互配合以及与另外 11 个智能体的对抗,同时奖励相比于 MOBA 游戏还更稀疏。

https://www.kaggleusercontent.com/episodes/7012487.webm

即便如此,WeKick 依然以显著优于第二名的成绩获得了冠军。这体现了完全体「绝悟」底层技术和框架的通用性。

虽然都是 RTS (即时战略)游戏,星际争霸中需要控制多种不同类型不同数量的单位,这些单位又有各自的运动和攻击特点,因而动作空间更大、策略空间更丰富。腾讯 Robotics X 开源了首个通用的大规模多智能体博弈训练框架TLeague[3],并据此训练出能击败大师级选手的星际争霸强AI TStarBot-X。这个星际AI只使用了AlphaStar的50分之一的算力。

AI+内容:TranSmart再升级,用AI赋能人工翻译

腾讯交互翻译TranSmart是目前业界唯一可实现人机交互的互联网机器翻译产品。经过三年积累,功能已覆盖人工翻译全流程,如按键、词、短语、句子、翻译记忆等。2020年,TranSmart开启商业化探索之旅,获得业界伙伴积极认可:

●  阅文集团:国内排名第一的正版数字阅读平台,将通过网文定制翻译引擎赋能海外编辑人员,翻译上千部出海的小说作品。

●  华泰证券:国内前五的券商,其证券分析师通过翻译记忆融合与交互翻译,高效发布中英双语研报;

●  腾讯云官网:在国际版官网和技术文档翻译过程中,定制翻译引擎准确处理Markdown、XML等标记文本,高效复用术语、双语句对等语言资产,助力腾讯云数百款产品出海远航。

TranSmart继承和发展了交互翻译的技术概念,在保证人作为翻译主体的同时,量身定制的个性化机器翻译全方位赋能人工翻译过程:

●  自动翻译质量:在目标场景中,通过语料增强和模型优化,自动翻译质量稳居行业前列;

●  实时译文建议:译文片段智能推荐和整句补全,显著减少用户反复修改错误译文的困扰,大幅改善人工翻译体验;

●  翻译记忆融合:动态结合用户已完成的双语句对,生成更符合期望的自动译文,性能显著优于传统静态和增量式训练的机器翻译;

●  翻译输入法:参照原文上下文和机器翻译知识,实现精准组词,加快人工翻译过程中的输入效率。

三、前沿研究进展

作为国内领先、世界一流的企业级人工智能实验室,腾讯 AI Lab 一直秉承开放合作的理念与全球高校和研究机构共同探索 AI 技术前沿。

2020 年腾讯AI Lab的高校合作项目「犀牛鸟专项研究计划」完成第三年度闭环,共发表高水平论文 50 多篇,项目的多项成果已应用于智能语音交互产品、直播自动解说系统和视觉识别系统等。新的一年,「犀牛鸟」还将继续飞翔,继续发现前沿研究中的挑战性问题并开展原创性研究,同时探索新技术的行业应用案例,打造持续共赢的产学研合作生态和科研成果转化平台。

此外,腾讯 AI Lab 还启动了「开悟」AI多智能体与复杂决策开放研究平台产学研生态建设,发起首届王者荣耀开悟 AI 学术交流赛,邀请清华大学、北京大学、中科院等 18 所高校师生开展百人专项培训和竞赛,为今后开悟平台向高校的更大规模开放打下良好基础。

在学术成果上,2020 年腾讯 AI Lab 和 Robotics X 实验室在计算机视觉、语音、自然语言处理、多模态、知识图谱、机器学习、机器人等更众多 AI 领域都做出了业界领先的贡献,并通过学术会议、期刊和公开平台分享了这些劳动成果。在 ACL、INTERSPEECH、IROS、NeurIPS、AAAI 等主要顶级学术会议上,腾讯 AI Lab 和 Robotics X 实验室都做出了较为显著的贡献,整体发表的论文数量位居国内企业实验室前列。

据上海交通大学 Acemap 学术地图统计,腾讯 2020 年在 AI 领域的论文(其中相当大一部分来自腾讯 AI Lab)发表数位列全球大学与机构第 8 位,H-index 全球并列第 5 位。在中国的大学和机构排名中,腾讯的 AI 论文数量排名第 4, H-index 并列第 2,大幅领先国内其它企业。  

腾讯 2020 年在 AI 领域的论文发表情况,其中论文发表数全球第 8 位,H-index 全球并列第 5 位,来自 https://www.acemap.info/ranking

下面将分主题简单梳理腾讯 AI Lab 在 2020 年发布的一些重要研究成果。

1)多模态研究

多模态研究的目标是让 AI 或机器人能通过整合多种不同来源的信号来理解环境和做出判断,比如视觉、雷达、GPS、语音、语言和互联网数据等。也因此,多模态研究对通用人工智能和虚实集成世界两大长期愿景而言具有极其重要的价值。虽然多模态研究非常重要,但 AI 领域目前还没有专门面向多模态研究的顶级会议或顶级期刊,也因此腾讯 AI Lab 的多模态研究成果分散地发表在不同的学术会议和期刊上。

2020 年腾讯 AI Lab 在多模态方向上的研究主要集中于音频/视频/图像与文本的多模态学习。除了前文已经介绍过的虚拟人成果,腾讯 AI Lab 还提出了一种针对视频中时序句子定位和事件描述学习模态间交互的新方法[4],该方法能学习成对的模态交互,从而改善两项任务的性能。

另外,腾讯 AI Lab 还研究了如何基于场景图分解来生成自然语言描述[5],通过递归子查询构造改善视觉和自然语言匹配[6]以及一种新的视觉-文本匹配模型[7]。

用于描述并定位视频事件的视频-文本多模态学习框架

除了视频-文本多模态,腾讯 AI Lab 也在视频-音频多模态上取得了一些研究成果。比如在一项 INTERSPEECH 2020 研究中,腾讯 AI Lab 提出了一种利用跨域视觉生成特征辅助障碍语音识别的方法[8]。该方法可利用大量域外的音频-视觉数据进行训练,从而为那些只有有限或者没有视觉数据的说话人生成视觉特征。这项帮助有发音障碍的说话人,提出的语音识别技术,有望实现一些重要的「科技向善」应用。

多模态语音分离框架

另外,在多模态人机交互上, 腾讯 AI Lab 还提出了多模态说话人diarization [9];多模态语音分离[10]; 以及多模态语音识别方案[11]。这是融合音频、视频、 声纹、空间信息等多个模态,针对「鸡尾酒会」一类复杂场景的人机交互整体解决方案。

多模态语音分离和识别的联合训练框架

腾讯 AI Lab 还提出了一种新的深度多模融合框架:信道交换网络(CEN) [12]。该框架通过在训练中自我引导地、动态地交换特定通道的特征,从而可在保持足够的模态内自身特征学习的同时,促进模态间的特征交互。

2)机器学习

机器学习是 AI 的核心过程和标志性能力,近些年的 AI 发展热潮正是源自深度学习这种机器学习技术的突破。近段时间,机器学习领域的研究重心除了继续优化深度学习方法和拓展其应用范围外,也在积极探索其与其它学习范式的组合,并由此诞生了深度强化学习和生成对抗网络的成功技术,此外,擅长梳理网络关系的深度图学习也已成为领域的一大热门研究方向。

2020 年,腾讯 AI Lab 在多个机器学习方向上都得到了重要的研究成果,也为机器学习模型的可解释性、鲁棒性等理论分析做出了贡献。这些研究成果可见于 NeurIPS 2020 等 AI 领域顶级会议和 Nature Communications 等顶级期刊。

在这其中,深度强化学习是腾讯 AI Lab 的一大核心研究方向。立足于围棋和《王者荣耀》等视频游戏等场景,腾讯 AI Lab 在深度强化学习方面的探索已达世界前列水平。基于此技术开发的围棋 AI 「绝艺」已在中国国家围棋队训练中得到了实际应用,《王者荣耀》AI 「绝悟」也已进化为「完全体」并通过首次大规模 MOBA AI 智能体性能测试接受了广大玩家的检验。完全体绝悟的成功基于腾讯 AI Lab 对新提出的方法与成熟方法的有效组合,其中包括课程自博弈学习、多头价值估计、策略注入、蒙特卡洛树搜索和离策略等。

腾讯 AI Lab 在深度图学习方面也成绩斐然,其中包括前文已提到的完全基于自监督训练的图神经网络框架 GROVER。通过在原子、化学键、分子级别的自监督任务设计,GROVER可以从海量的无标签分子中学习到大量结构/语义信息。与此同时,为了可以编码分子中海量的复杂信息,GROVER 还整合了消息传播网络和Transformer,得到一个有更强表达能力的图神经网络模型 GTransformer。这对药物研发方面具有广阔的应用潜力。腾讯 AI Lab 还提出了一种基于狄利克雷分布的图变分自编码器框架[13]并证明了该框架与经典平衡图分割方法的等价性。另外腾讯 AI Lab 还通过分子逆合成分析探索了深度图学习在化学领域的应用[14]。此外,在 2020 年的 ACM SIGKDD 会议上,腾讯AI Lab、清华大学、香港中文大学等机构联合组织,通过一场为期一天的课程系统性地讲解了图神经网络。

腾讯 AI Lab 还有一项将深度强化学习与图学习组合起来的研究成果,这是一种针对文字游戏提出的基于分层堆叠注意力机制的深度强化学习算法[15]。这项研究使用了知识图进行显式推理以进行决策,从而通过可解释的推理程序生成并支持智能体的决策。加上一种新提出的分层堆叠注意力机制,可通过利用知识图的结构来构造推理过程的显式表示。

  

分层堆叠注意力网络架构

腾讯 AI Lab 在网络架构搜索方面也取得了一些进展。相较于人工设计网络架构,自动化网络架构搜索效率更高,而且还可能找到人类难以构想出的结构,目前该技术已经在诸多领域得到了广泛应用。在用于提升网络架构搜索的计算效率方面,腾讯 AI Lab 提出了一种过渡性的仿射参数共享训练策略[16],对参数共享的程度进行了量化分析,并动态地调整搜索训练速度和备选网络结构的可区分性,以提升网络搜索的效率与精度。

在结合多任务学习方面,腾讯 AI Lab 采用了基于任务的结构控制器,来针对不同的任务产生针对性的网络结构,并采用元学习的方式,使得网络参数可以快速适应到新的任务上[17]。

此外,腾讯 AI Lab 还在相关理论分析方面做出了一些贡献,包括一项评估神经机器翻译的可解释性方法[18],可帮助我们打开深度学习黑箱。另外,腾讯 AI Lab 还研究了选择性机制对自注意网络的改善情况[19],解释了该机制在顺序编码和结构建模上的主要贡献,这对于进一步改进自注意力网络有一定的启发和指导意义。

最后,腾讯 AI Lab 的一篇 ECCV 2020 论文也提出了一种基于神经科学研究的新式卷积:

语境门限卷积(Context-Gated Convolution)[20]。这是一种轻量级的组件,可以很好地应用在现有的卷积神经网络中,在图像识别、视频理解、机器翻译上都可以显著提升现有模型性能。

门限卷积示意图

3)自然语言处理

随着 BERT 与 OpenAI GPT 等基于 Transformer 的大规模语言模型的出现,一些专家认为自然语言处理领域将在未来十年内迎来重大突破。腾讯 AI Lab 正在为推动自然语言处理技术的发展而开展研究工作。在 2020 年 7 月举办的自然语言处理领域顶级会议 ACL 2020 上,腾讯 AI Lab 贡献了 20 篇论文,位列国内企业研究机构前列。

在文本理解方面,2020 年 4 月腾讯 AI Lab 开放了文本理解系统TexSmart,可对中文和英文两种语言的文本进行词法、句法和语义分析。与其它现有公开的文本理解工具相比,TexSmart除了支持分词、词性标注、粗粒度命名实体识别(NER)、句法分析、语义角色标注等常见功能外,还提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。TexSmart 系统获得了2020 中国计算语言学大会(CCL)最佳系统演示奖。在对话理解方面,腾讯AI Lab提出了对话语义角色标注(Conversational Semantic Role Labeling)技术,该技术将对话的语义表示成多个「谓词-论元」结构,可以同时处理对话中常见的信息缺失和指代问题,有效地提升了对话的理解和下游任务的性能,如对话改写[21]和对话生成。同时,腾讯AI Lab将该项技术和对话理解的其他技术结合,在京东智能客服对话比赛中获得第一名

此外,腾讯 AI Lab 还在长文本阅读理解[22]、从高资源语言向低资源语言的泛化[23]、基于对话的关系抽取[24]等方面取得了一些研究进展。

在语言生成与对话方面,除了前文已经描述过的能生成格式可控的歌词、诗词文本的 SongNet[25],腾讯 AI Lab 还研究了如何更好地理解对话上下文、如何打造千人千面的对话机器人、如何融合常识等知识、如何在保证流畅性的同时生成符合逻辑的自然语言等课题。相关研究成果包括面向多轮对话的语义角色标注与对话改写[26]、利用灰度数据增强多轮对话理解[27]、知识融合型对话生成[28]、基于开放领域表格的逻辑性自然语言生成[29]、提升对话一致性的三阶段生成模型[30]等。

在机器翻译方面,我们致力于改善翻译模型的效果。我们提出的数据重生[31]和多领域通用翻译模型[32]可更有效利用大规模多领域混合训练数据。同时,我们继续深耕于理解并改进Transformer模型,其中包括理解选择性机制对自注意力网络的重要性[33],推理置信度校准研究和评估神经机器翻译的可解释性方法[34]。受益于此,我们的自动翻译(中英和英中)系统准确度继续保持国内前列,在国际翻译比赛WMT2020中也取得了1项第一,3项第二的成绩。

4)计算机视觉

2020 年,腾讯 AI Lab 在计算机视觉方面成果颇丰。在计算机视觉领域顶级会议 CVPR 和 ECCV 上,腾讯 AI Lab 各有 11 和 18 篇论文入选,多模态学习、视频内容理解、对抗攻击与对抗防御、基于生成模型的图像编辑等多项课题。此外在 NeurIPS 2020 上也有多篇相关论文入选。

首先来看针对视觉的对抗攻击问题,这是基于深度神经网络的计算机视觉模型的一大核心弱点,也是很多实际计算机视觉应用的最后一道门槛。当然,这也是腾讯 AI Lab 的一大重要研究课题。2020 年,腾讯 AI Lab 提出了一些实现对抗攻击的新策略,比如一种针对深度聚类的对抗策略可以挖掘易于使聚类层出现预测偏差,但却不会影响深度嵌入网络性能的样本,这种无监督对抗聚类网络能利用对抗攻击与防御训练方法提升深度聚类网络的鲁棒性[35];另一项发表在ECCV上的研究也提出了利用扰动分解实现稀疏对抗攻击的新思路[36]。

稀疏对坑攻击示例

同时,腾讯 AI Lab 也提出了一些用于防御对抗攻击的技术,包括一种针对对抗攻击的鲁棒目标跟踪方法[37],它能在产生轻量对抗扰动时候将时序信息纳入考虑,从而提升模型鲁棒性。

腾讯 AI Lab 在图像去模糊和超分辨率方面也成果颇丰。比如在 ECCV 入选论文中,腾讯 AI Lab 有两篇论文研究了如何消除视觉场景的雨滴,其中包括一种基于语义理解的双目去雨方法[38]和一种利用雨痕和雨雾分析进行图像去雨的技术[39]。超分辨率方面,腾讯 AI Lab 提出了一种结合3D脸部结构先验的人脸超分辨算法[40],该算法能充分利用脸部结构及身份信息来辅助处理困难的脸部姿态变化。

当然,腾讯 AI Lab 也没有缺席热门的视频研究领域,这能帮助机器理解不断动态变化的世界,对多模态学习而言也具有重要价值。2020 年的相关研究包括一种可用于时序动作分割的边界感知级联网络,这种新的级联模式能让模型自适应地调整感受野以及对语义模糊的视频帧做出更加有信心的预测。此外,腾讯 AI Lab 还提出了一种新的短时序动作检测框架——移动中心点检测器(MOC-Detector)[41],其可将动作实例视为运动点的轨迹,实现高质量的长时动作检测[42]。

腾讯 AI Lab 也在手语自动翻译上做出了一些研究进展,其提出了一种基于多粒度视频片段的手语翻译层次化特征学习方法[43],该方法能自适应地利用多粒度时序信息,对视频语义进行局部和全局的建模,从而能极大缓解对手势分割的需要,提升翻译质量。希望这项研究能更进一步转化为「科技向善」的应用成果。

5)语音

高质量语音数据识别是一个已经基本得到解决的问题,但在现实生活应用中,语音领域还面临着鸡尾酒会问题以及人们自由聊天口语化表达风格多样的问题。而在语音合成方面,高自然度和表现力的合成语音仍旧还是需要不断努力到达的目标。

2020 年,语音技术顶级会议 INTERSPEECH 共接收了 16 篇腾讯 AI Lab 论文,其中既有在语音前沿技术方向的进一步探索,也包含一些理论研究和分析,同时还有在科技向善与文化遗产保护等方面的应用成果。

在这其中,腾讯 AI Lab 为解决鸡尾酒会问题提出了多项潜在的解决策略。一是前面多模态学习部分已经介绍的使用视觉数据辅助识别;二是使用带强干扰的声源数据来进行学习[44],这能「迫使」模型在非常糟糕的干扰条件下学习到足够具有区分和泛化性能的表征,三是不断改进多通道语音增强波束形成技术,通过提出全新的基于递归神经网络的波束形成方法[45],首次突破传统波束形成技术,在PESQ等客观指标和WER等语音识别指标上同时达到最优。四是提出了一种端到端的多通道语音分离技术[46], 比传统的多通道技术性能提高10%。

另外,在语音识别方面,腾讯 AI Lab 着力提升复杂条件下的识别性能,通过有效结合分离和识别技术,使得在背景音乐及干扰人声下的语音识别准确率获得相对20% 的大幅提升,该技术正广泛应用于信息流产品视频内容理解、短视频及直播视频字幕生成中。

而在语音合成方面,DurIAN 是腾讯 AI Lab 多年研究的重要结晶,也是腾讯虚拟人语音系统的核心组件。DurIAN 不仅能合成更加自然流畅的说话语音,还能用于合成歌声,腾讯 AI Lab 甚至还探索了其在京剧合成方面的应用[47],从技术角度为中国传统文化的保护和传承提供一个方向。腾讯 AI Lab 的语音合成技术在2020 年完成端到端合成工业化落地之后,不断朝着更高的目标演进,不但发音人音色数量大幅增加,每个音色都具有多种情感和多种不同风格的语音合成能力,可综合不同风格和情感实现针对不同场景不同文本更自然的表达。在此基础上,腾讯 AI Lab 还实现了韵律词、字级别的细粒度控制能力,可以灵活地对单个字、词的语气情感进行调节,在一句话内部也可有丰富的变化,大幅提升了合成语音的表现力和感染力。细粒度控制的合成技术正在落地到游戏解说和小说合成这样对表现力和感染力要求更高的应用场景中。

四、总结与展望

过去的 2020 年是必然会被写入历史书的一年,如何让这个世界变得更好已成为更多人积极思考和探索的问题,而科技必将在其中发挥至关重要的作用。

继续秉承「科技向善」的信念和「Make AI Everywhere」的愿景,以通用人工智能和虚实集成世界为长期目标,腾讯 AI Lab 在这一年中做出了更多积极的应用和研究贡献,涵盖虚拟人、多智能体、农业、医疗、药物研发和机器人等诸多领域。

开源项目

●   hifi3dface:高速低成本创建高拟真度 3D 虚拟人

https://github.com/tencent-ailab/hifi3dface

●   SongNet:可以根据任意格式和模板来生成相契合的文本(诗词歌赋),该项目还发布了一个预训练汉语模型和一个已经过微调的宋词模型。

https://github.com/lipiji/SongNet

●  GROVER:大规模自监督分子图预训练模型(可用于 ADMET 分子属性预测等任务)

https://ai.tencent.com/ailab/ml/gnnpretrain.html

●   重症COVID-19患者早期分期的深度学习生存模型

https://github.com/cojocchen/covid19_critically_ill

●   LogicNLG:基于开放领域表格的逻辑性自然语言生成

https://github.com/wenhuchen/LogicNLG

●   Graph2Tree:用于自动解数学应用题的图到树学习

https://github.com/2003pro/Graph2Tree

●   recurrent-transformer:用于生成更连贯视频语言描述的记忆增强型循环Transformer

https://github.com/jayleicn/recurrent-transformer

●   InfECE:神经机器翻译中推理阶段的置信度校准研究

https://github.com/shuo-git/InfECE

●   SSAN:选择性自注意网络

https://github.com/xwgeng/SSAN

●   Data Rejuvenation:数据重生:让神经机器翻译中的不活跃样本「复活」

https://github.com/wxjiao/Data-Rejuvenation

●   metaHypernymy:基于元学习的低资源语言上下位预测的方法

https://github.com/ccclyu/metaHypernymy

●   DialogRE:基于对话的关系抽取(RE)数据集

https://github.com/nlpdata/dialogre

与https://dataset.org/dialogre

●   AMR-multiview:图到文本生成中的结构化信息保留

https://github.com/Soistesimmer/AMR-multiview

●   lab-zp-joint:基于多任务训练框架的联合零指代还原和消解训练

https://github.com/freesunshine0316/lab-zp-joint

●   Sub-GC:基于场景图分解的自然语言描述生成

https://github.com/YiwuZhong/Sub-GC

●   FeatherWave:一种高效的多频带并行式高质量语音合成器

https://wavecoder.github.io/FeatherWave/

●   TSPNet:基于时序语义金字塔的手语翻译层次化特征学习

https://github.com/verashira/TSPNet

●   ALRDC:基于对抗学习的鲁棒性深度聚类

https://github.com/xdxuyang/ALRDC

●   ProxyGML:使用更少代理的深度图度量学习方法

https://github.com/YuehuaZhu/ProxyGML

●   CEN:信道交换网络

https://github.com/yikaiw/CEN

●   TStarBot-X:纯机器学习的星际争霸II强AI

https://github.com/tencent-ailab/tleague_projpage

●  TLeague:通用的大规模多智能体博弈训练框架

https://github.com/tencent-ailab/tleague_projpage

开放项目

开悟:用游戏探索通用人工智能,现已面向高校开放

●  https://aiarena.tencent.com/aiarena/zh/index/

重症COVID-19患者早期分期的深度学习生存模型查询服务

●  https://aihealthcare.tencent.com/COVID19-Triage.html

AI安全攻击矩阵:业内首个 AI 安全攻击矩阵,一份具有高实用性的AI安全技术指导框架

●  https://share.weiyun.com/8InYhaYZ

TexSmart:开放自然语言理解系统

论文链接:

应用项目

[1]基于 RGB-D 自拍视频创建高拟真度 3D 虚拟人

https://arxiv.org/abs/2010.05562

[2]DurIAN 语音合成框架

https://tencent-ailab.github.io/durian/

[3]通用大规模多智能体博弈训练框架TLeague

https://github.com/tencent-ailab/tleague_projpage

[4]一种针对视频中时序句子定位和事件描述学习模态间交互的新方法

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123490324.pdf

多模态研究

[5]基于场景图分解来生成自然语言描述

https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/2115_ECCV_2020_paper.php

[6]通过递归子查询构造改善视觉和自然语言匹配

https://arxiv.org/abs/2008.01059

[7]一种新的视觉-文本匹配模型

https://arxiv.org/abs/2007.08883

[8]一种利用跨域视觉生成特征辅助障碍语音识别的方法

https://isca-speech.org/archive/Interspeech_2020/abstracts/2282.html

[9]多模态说话人diarization

https://arxiv.org/pdf/2002.05314.pdf

[10]多模态语音分离

https://arxiv.org/pdf/2003.07032.pdf

[11]多模态语音识别方案

https://arxiv.org/abs/2005.08571

[12]一种新的深度多模融合框架:信道交换网络(CEN)

https://proceedings.neurips.cc/paper/2020/hash/339a18def9898dd60a634b2ad8fbbd58-Abstract.html

机器学习

[13]一种基于狄利克雷分布的图变分自编码器框架

https://proceedings.neurips.cc/paper/2020/hash/38a77aa456fc813af07bb428f2363c8d-Abstract.html

[14]通过分子逆合成分析探索深度图学习在化学领域的应用

https://proceedings.neurips.cc/paper/2020/hash/819f46e52c25763a55cc642422644317-Abstract.html

[15]一种针对文字游戏提出的基于分层堆叠注意力机制的深度强化学习算法

https://arxiv.org/abs/2010.11655

[16]一种过渡性的仿射参数共享训练策略

https://proceedings.neurips.cc/paper/2020/hash/42cd63cb189c30ed03e42ce2c069566c-Abstract.html

[17]多任务学习-基于任务的结构控制器

https://doi.org/10.1609/aaai.v34i04.6084

[18]一项评估神经机器翻译的可解释性方法

https://arxiv.org/abs/2005.01672

[19]选择性机制对自注意网络的改善情况

https://arxiv.org/abs/2005.00979

[20]语境门限卷积(Context-Gated Convolution)

https://arxiv.org/abs/1910.05577

自然语言处理

[21]对话语义角色标注(Conversational Semantic Role Labeling)技术-对话改写

https://arxiv.org/pdf/2010.01417.pdf)

[22]长文本阅读理解

https://arxiv.org/abs/2005.08056

[23]从高资源语言向低资源语言的泛化

https://www.aclweb.org/anthology/2020.acl-main.336/

[24]基于对话的关系抽取

https://arxiv.org/abs/2004.08056

[25]SongNet

https://arxiv.org/abs/2004.08022

[26]面向多轮对话的语义角色标注与对话改写

https://arxiv.org/pdf/2010.01417.pdf

[27]利用灰度数据增强多轮对话理解

https://arxiv.org/abs/2004.02421

[28]知识融合型对话生成

https://arxiv.org/abs/2005.06128

[29]基于开放领域表格的逻辑性自然语言生成

https://arxiv.org/abs/2004.10404

[30]提升对话一致性的三阶段生成模型

https://arxiv.org/abs/2004.07672

[31]数据重生

https://www.aclweb.org/anthology/2020.emnlp-main.176.pdf

[32]多领域通用翻译模型

https://arxiv.org/abs/1911.09912

[33]选择性机制对自注意力网络的重要性

https://arxiv.org/abs/2005.00979

[34]推理置信度校准研究和评估神经机器翻译的可解释性方法

https://arxiv.org/abs/2005.00963

https://arxiv.org/abs/2005.01672

计算机视觉

[35]一种针对深度聚类的对抗策略

https://proceedings.neurips.cc/paper/2020/hash/6740526b78c0b230e41ae61d8ca07cf5-Abstract.html

[36]利用扰动分解实现稀疏对抗攻击的新思路

https://paperswithcode.com/paper/sparse-adversarial-attack-via-perturbation

[37]一种针对对抗攻击的鲁棒目标跟踪方法

https://arxiv.org/abs/2007.09919

[38]一种基于语义理解的双目去雨方法

https://link.springer.com/chapter/10.1007/978-3-030-58583-9_5

[39]一种利用雨痕和雨雾分析进行图像去雨的技术

https://arxiv.org/abs/2008.00823

[40]一种结合3D脸部结构先验的人脸超分辨算法

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123490732.pdf

[41]一种新的短时序动作检测框架——移动中心点检测器(MOC-Detector)

https://arxiv.org/abs/2001.04608

[42]边界感知级联网络

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700035.pdf

[43]手语自动翻译

https://proceedings.neurips.cc/paper/2020/hash/8c00dee24c9878fea090ed070b44f1ab-Abstract.html

语音

[44]使用带强干扰的声源数据来进行学习

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1545.pdf

[45]全新的基于递归神经网络的波束形成方法

https://arxiv.org/abs/2008.06994

[46]一种端到端的多通道语音分离技术

https://arxiv.org/pdf/2003.03927.pdf

[47]DurIAN在京剧合成方面的应用

https://arxiv.org/abs/2008.03029

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/112172266