主会场 —— 主旨报告
报告题目:大模型驱动的具身智能人形机器人与展望
讲者:王耀南(中科院自动化所,中国科学院院士)
人形机器人是模仿人的形态运动和功能、与人交流、模仿人类外观和行为的高级通用智能机器人,可以辅助或者替代人类执行危险、肮脏、重复环境下多种类型任务。
王院士在报告中分析了大模型驱动的人形机器人技术进展,介绍了人形机器人研究背景与意义、国内外研究现状、大模型驱动的人形机器人关键技术,如大型自然语言模型、多模态视觉语言模型、具身智能多模态大模型等,以及发展趋势与展望,并举例介绍了具身智能人形机器人是国际公认的机器人技术集大成者和科技竞争的制高点,可推广应用于工业制造、国防安全、智能服务和智慧医养等行业,具有广阔的前景和巨大的潜力。
同时,王院士提出大模型技术的发展为人形机器人感知识别、认知决策、人机交互、自主学习、多机协同规划、行为操作控制系统注入语言理解、视觉泛化、常识推理等关键能力和实现方法,有望推动具身智能人形机器人技术与应用的新一轮发展。
图1 大模型驱动的具身智能人形机器人与展望
主会场 —— 主旨报告
报告题目:透明且一致的深度表征学习:从白盒到黑盒,从开环到闭环
讲者:马毅(香港大学)
在本次报告中,马老师从压缩数据的编码和解码的角度,对过去十年深度神经网络的实践进行了系统的解释。他认为,学习(或智能)的最根本目标是学习到一个紧凑且有结构的数据分布表示。最终学习到的表示的优劣可以通过一个信息增益的原则性量度来评估,该量度可以通过学习特征的(有损)编码率计算得出。
马老师主张,对这一目标的展开迭代优化提供一个统一的白盒解释,可以解释几乎所有过去和当前广泛应用于人工智能实践的深度神经网络,包括 ResNets 和 Transformers。他提出,已有令人信服的理论和实证证据表明,数学上可解释、实践上有良好表现且语义上有意义的深度网络现在已触手可及。
此外,马老师的研究表明,为了使学习到的表征正确且一致,必须闭合编码和解码网络的循环,而不是像当前的做法那样,将它们作为独立的开环网络进行端到端的训练。这一新框架揭示了开发下一代高效的自主学习架构和系统的广阔而光明的未来,这些系统可以真正模拟记忆创建的计算机制。
图2 透明且一致的深度表征学习:从白盒到黑盒,从开环到闭环
分会场 —— 特邀报告
报告题目:基于能力定量表征的序列图像自主导航技术
讲者:王大轶(北京空间飞行器总体设计部 杰青)
深空探测任务对空间飞行器全自主运行技术提出了迫切需求,自主导航与自主诊断重构是其中两大关键核心,也是实现全自主运行的前提和保障。王老师针对资源强受限的空间飞行器,以观测能力的定量表征为理论创新突破口,以从序列图像中挖掘导航状态信息为关键技术突破口,提出了基于观测能力定量表征的序列图像自主导航技术,这项技术为实现空间飞行器安全可靠自主运行做出重要贡献。
图3 基于能力定量表征的序列图像自主导航技术
分会场 —— 特邀报告
报告题目:多模态大模型发展及垂域赋能
讲者:杜博(武汉大学教授 杰青)
多模态大模型作为人工智能领域的重要进展,通过整合学习文本、视觉等多模态数据信息,极大地提升了模型的多模态理解和人机交互能力。随着大模型技术的不断发展,多模态大模型也有望助力赋能各行业发展。杜老师探讨了多模态大模型的发展历程、应用场景与研究挑战,以及介绍团队从通用基础大模型到医疗、遥感垂直领域多模态大模型的研究成果,分析多模态大模型在特定垂直领域的应用潜力和赋能效果,并为未来的大模型技术发展和赋能应用提供前瞻性视角。
图4 多模态大模型发展及垂域赋能
分会场 —— 特邀报告
报告题目:通用数据与训练与高效微调方法研究
讲者:常建龙(华为)
人工智能的发展和应用一直面临着智能孤岛的问题,即各种数据中的知识只能通过不同的模型学习,而不能累积学习。不同于人工智能,人类智能没有智能孤岛现象,可以从海量任务和数据中累积学习,这就是为什么人类能够根据他们过去的经验完成他们从未遇到过的任务。常老师聚焦于该问题,从数据、架构和优化出发实现预训练模型的累积式知识学习,并从通过统一各类微调方案解提升预训练模型的应用效率。
图5 通用数据与训练与高效微调方法研究
分会场 —— 特邀报告
报告题目:高真实感3D高斯数字化身
讲者:刘烨斌(清华大学 杰青)
近期,3D 高斯泼溅(Guassian Splatting )作为一种新的可微渲染技术,逐渐取代其他可微渲染方法成为学术界和产业界的研究热点。借助3D 高斯泼溅在3D场景表达和渲染的优势,刘老师介绍了他在 3D 数字重建与生成方面的最新研究工作,包括高保真的头部与身体数字化身生成、简易-快速高效的人头 3D 高斯化身、融合视频生成机制的 3D 高斯数字化身、基于动作生成的高斯数字化身交互等相关研究工作。
图6 高真实感3D高斯数字化身