Xiaobu Virtual Human and Multimodal Technology Evolution

Introduction  Today's sharing topic is "The Connection Between Virtual Humans, Multimodality, and General Intelligence".

It mainly includes the following four parts:

1. Technological progress of Xiaobu virtual human

2. Development of Xiaobu multimodal technology

3. My view on general intelligence

4. The connection between the three

Sharing Guest|Zheng Zhitong OPPO Multimodal Learning Director
Editing|kiki fashion star
Production Community| DataFun

01

Technological progress of Xiaobu's virtual human

1. Virtual human voice driver
This scene mainly supports Xiaobu’s virtual human driver on the mobile phone side. We have developed  Audio2Lip and Sing2Lip by ourselves.
Audio2Lip's end-to-end algorithm supports Xiaobu's 7 AVATARs images, meets business needs, and reaches the industry's leading level in terms of energy consumption, real-time performance, lip shape accuracy, MOS and other related indicators. Sing2Lip also implements two algorithms on the device side and the cloud side. On the end side, on the basis of Audio2Lip, some music rhythm information is added, so that the driving point will be more accurate. On the cloud side, the Audio2Mesh version is implemented, which directly drives the entire human face through voice, including the micro-expressions of the human face.
For the device-side driving algorithm of the relatively simple cartoon image, we use a one-to-one algorithm. If a human-like image is driven on the cloud side, the facial expressions will be richer. Instead of a one-to-one algorithm, a many-to-many algorithm with context can be used to drive some micro-expressions.
2. Virtual human RGB driver
The virtual human RGB drive is to use a camera to take a picture of a person, and then drive the AVATAR.
The original idea is relatively simple, first detect people, and then do face reconstruction, human hand reconstruction, and human body reconstruction. But after running, I found two problems: human body drift and mold penetration. Later, some physical models, some end-to-end algorithms, and some human motion retargeting were used to solve these two problems, and finally achieved a good effect.
3. Virtual human creation
In terms of virtual human creation, we went through the process of 4D scanning to create a real person, and at the same time made some algorithm acceleration to make the time acceptable. Finally, the artist needs to add some details to modify it to reach a usable level.
4. NERF
我们还探索了一些 NERF,去创造了一些环境的素材,调研了 NERF 的一些最新的实时算法。之前 NERF 的主要问题是实时性差,而且效果上面有很多瑕疵。
02
小布多模态技术进展
1. CETNETs
我们发表了一篇 ECCV 的论文,在 CV 的 VIT 主干网络上面做了一些创新。目前可以达到 SOTA 的水平。
创新主要有两点:一个是宏观上的创新 Convolutional Embedding,另一个是 Transformer blocks 里面的微创新。这两个创新也可以用在其它的 VIT 架构上。
2. 跨模态匹配
我们把这个创新用到了多模态训练上面。目前我们的多模态训练采用了双塔的架构,主要是用在跨模态检索的场景。一些算法能够在同样参数量的情况下超过 Wukong。除了前面讲的两点创新,在数据增强和 label smoothing 上也做了微创新。
3. AIGC
在 AIGC 方面,基于 GANs、VAEs 和 Diffusion Models 构建了一个适用于多种场景的 AIGC 算法库。在具体落地上,我们用 AIGC 算法生成了一个 2D 的数字员工的照片。最近又用 Diffusion Models 做了一些孵化的项目。在局部还做了一些微创新,比如生成一个人体,脸部经常会有一个恐怖谷的效应。我们采用了局部再生成的技术,大幅提升了脸部的生成效果。
03
通用智能之我见
接下来分享一些个人在通用智能方面的看法。
首先,AI 发展到当前,进入了一个瓶颈期。AI 工程与原来的软件工程是不一样的。比如,在 AI 工程中可能做了很多补丁,还做了大量的实时监控来监测模型是否飘移,大量的数据标定,最后发现数据标定占 60% 以上的成本。上线之后依然需要收集更多的信息不断地去更新。
AI 工程化主要是在真实场景中实现以人为中心的可重复扩展的健壮且安全的人工智能应用的开发工具、系统和过程,它是系统工程、软件工程和计算机科学的交叉学科。在健壮方面,大家都看好大规模预训练,然后再到小场景去做 finetuning。在可重复扩展上面,大家比较看好模型自动化模型压缩技术,比如基于 NaaS 实现一体化的模型压缩。在以人为中心的角度,大家提出了 AI 伦理的设计,有些信息的采集必须经过用户的同意,并且要保证用户信息的安全。
现在,模型出的越来越大,这些特别大的模型就形成了托勒密体系。
托勒密体系认为,地球位于宇宙中心附近的一点上,月亮、太阳和恒星都在以宇宙中心为圆心的圆轨道上运行,五大行星在绕以某一几何点为圆心的本轮上做匀速圆周运动。开始有 34 个本均轮,后来为了提高天文的观察精度,提高到了 80 多个,甚至更多。它能够把观察到的数据拟合得很好。但它和实际的物理规律没有太多关系。类似于现在的超大模型,尽管拟合数据方面特别好,但是在物理规律揭秘的程度上面偏离了很多,在实际部署上也存在很大问题。
要突破瓶颈,AI 需要遵循物理理解+逻辑理解。
比如当一个数据表征满足一个因果图时,因果关系、不变性和 OOD 泛化是等价的。OOD 就是同样一个物理体系产生出来的数据,有可能是跟原来积累的数据分布式是不一样的,但它是同样一个物理体系产生的。理论上要求以前的模型在同样物理体系产生的 OOD 上也应该是 work 的。但现在的超大规模的预训练模型可能无法解决这个问题。必须要在数据表征上面,网络框架上面,还有一些训练技巧上面,更加贴近物理的理解和逻辑的理解,这样才能用更少的样本、更少的参数来实现数据的拟合。从而使 OOD 泛化性能更好。
04
三者之间的联系
最后谈一下虚拟人、多模态和通用智能三者之间的联系。
小布以前是语音助手,后来发展出虚拟人,具备多模态感知和多模态对话能力。又发展到机器人,后面机器人使用某些工具。
虚拟人是多模态认知的一个方面,相当于小布给大家展示一个门面出来,多模态感知就是给小布助手输入各种各样的信息,输出各种各样的图片出来。
多模态是实现通用人工智能的关键之一,分为多模态对齐、多模态融合、多模态生成。
最后,将三者之间的联系总结如下: 
(1)虚拟人是人体外形模态信息的抽取和再创造,它是一种 3D 模态信息,虚拟人语音控制和 RGB 控制本身就是多模态对齐,是通用智能的门户之一。
(2)多模态是实现通用智能的关键技术之一,多模态对齐和多模态融合是通用智能感知鲁棒的必由之路,和人的感知一样,眼见和耳听都能对上,信息才有可能是真的。多模态生成天然成了通用智能数据增强的一种手段。
(3)通用智能必然要达到物理理解和逻辑理解,虚拟人和多模态是物理理解的关键环节。
今天的分享就到这里,谢谢大家。

分享嘉宾

郑 志 彤
OPPO 
多模态学习负责人


OPPO 高级算法架构师,现任数智系统机器学习 TMG 主任、小布智能中心多模态学习负责人,促进小布从语音助手进化成多模态助手。2020 年 8 月加入 OPPO,参加商业算法软件商店首页攻坚,贡献了千 6AUC 提升和 2 点多 ARPU 值提升;随后调入数智系统机器学习部,负责了端云协同的 StarFire 项目;之后又调入小布智能中心,负责多模态学习,短时间搭建了虚拟人算法团队和 StarLite 项目团队,启动了多模态预训练项目。在机器学习领域有十几年经验,对 CV、NLP、音频、推荐系统等算法有深刻认知,对 AI 工程化有实操经验,十分关注通用智能的发展,多模态预训练是通用智能的关键一环。硕士毕业于清华大学,本科毕业于人民大学。


END
About AndesBrain

安第斯智能云
OPPO 安第斯智能云(AndesBrain)是服务个人、家庭与开发者的泛终端智能云,致力于“让终端更智能”。作为 OPPO 三大核心技术之一,安第斯智能云提供端云协同的数据存储与智能计算服务,是万物互融的“数智大脑”。

本文分享自微信公众号 - 安第斯智能云(OPPO_tech)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

工信部:不得为未备案 App 提供网络接入服务 Go 1.21 正式发布 阮一峰发布《TypeScript 教程》 Vim 之父 Bram Moolenaar 因病逝世 某国产电商被提名 Pwnie Awards“最差厂商奖” HarmonyOS NEXT:使用全自研内核 Linus 亲自 review 代码,希望平息关于 Bcachefs 文件系统驱动的“内斗” 字节跳动推出公共 DNS 服务 香橙派新产品 Orange Pi 3B 发布,售价 199 元起 谷歌称 TCP 拥塞控制算法 BBRv3 表现出色,本月提交到 Linux 内核主线
{{o.name}}
{{m.name}}

Guess you like

Origin my.oschina.net/u/4273516/blog/9020191