上海交通大学方浩树:人类行为理解与机器人物体操作

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日,第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。上海交通大学方浩树带来报告《人类行为理解与机器人物体操作》。

上海交通大学方浩树做“人类行为理解与机器人物体操作”主题报告分享

方浩树,上海交通大学吴文俊人工智能荣誉博士班,致远荣誉博士计划,计算机专业一年级博士生,主要研究方向为人类行为理解与机器人物体操作。此前在ICCV,CVPR,AAAI,ECCV会议上发表十篇论文,其中6篇一作。博一期间获得CCF-CV学术新锐奖与百度奖学金。

人类行为与机器人物体操作

在报告正式开始之前,方浩树先解答了观众的一个问题,即“现在AI除了图像处理和语音识别外,还有哪些比较好的方向?”他回答道:机器人物体操作。因为在图像处理还有语音识别的领域的话,AI做的相当于一个理解人或者理解图像,本身做的是对这个世界的理解。但这个过程它其实能反过来,比如说用主观能动来改变这个世界。这个图像处理做的其实不多,比如说你在安防里,它最主要是提供一些信息的抽取。但是机器人领域它如果是用AI的话,它就可以相当于赋能机器人反过来服务人类,相当于对这个世界有主观能动的这么一个改变的作用。所以这也就是为什么推荐机器人这个方向的原因。

之后,方浩树开始了正式的报告分享。

首先,方浩树对自己作了一个简单的自我介绍。他本科上海交通大学计算机专业,目前研究方向是人类行为理解,包括人类的姿态估计,人类的语义解析,还有一些人物交互关系的识别等等。在机器人研究方面,他主要感兴趣的是机器人的抓取,还有机器人物体操作这些方向。

方浩树对他的研究做了一个概述:自己的主要愿景是机器人会在工业农业还有服务业会发挥越来越大的作用。他面临的挑战是机器人怎么样快速的适应不同的环境,或者说如果让机器人有这么一个能力,那么目标是希望机器人可以从人类的示例中学习,赋能机器人进行物体操作。

接下来,方浩树对他的工作进行了具体的讲解,主要有以下几点内容:

一是,在人类行为理解方面的研究。

这方面会从一些宏观的角度来讲,方浩树根据不同的文章进行了讲述。如果大家对技术细节有感兴趣的,可以具体看一看论文,论文标题在图的左下角已经标注出来。

第一个研究工作的成果发表在ICCV 17上。这篇文章的主要工作是针对多人场景姿态估计,提出一个两步法的RMPE框架。多人场景姿态估计的目标是在一个多人场景里识别每一个人,然后同时把每一个人的骨架抽取出来。这个跟赵明民学长所讲述的穿墙骨架识别其实有相似之处,只不过这里是直接从RGB图像来抽取。这一篇文章主要解决的问题是在人体检测不准的时候,怎么进行姿态估计,使得基于两步法的一个算法可以鲁棒的运行,该算法的速度比之前的算法快了600倍,精度提升了10个点。

第二个研究工作的成果发表在AAAI 18上,这篇文章的工作是把一个语法模型跟神经网络进行融合。具体来说,包括三个语法,一是人的姿态对称语法,就是说人的左手跟右手或者左脚跟右脚长度应该至少是一样的或者差不多;二是这种运动学的语法,比如说人在运动的时候,一般不会同手同脚的进行运动;三是人的树状结构的语法,相当于在推测一个点的时候,会考虑到人的树状结构上的一系列的点,比如说他在预测手腕的3D姿态的时候,或者说三维位置的时候,会同时结合肩膀跟手肘的姿态来进行预测。

第三个研究工作的成果发表在CVPR 18上,这篇文章开始做了人体的细粒度的像素级别的解析,这个任务是说把人体各个部位的语义识别出来,比如说这个像素它代表是人的手还是衣服或者是头发脖子等等。这篇文章主要提出一个弱监督学习的方法,之所以要做弱监督,是因为做Human Parsing的数据标注会很困难的,因为它需要对每个像素进行一个分析,所以它的训练数据实际上会很少。而这个方法的思想是把大量的人体关键点数据,也就是把大量的pose数据里面的知识迁移到小样本的任务里面来。

第四个研究工作的成果发表在ECCV 18上。在人类执行行为理解里面有一个重要任务叫Human-Object interaction,就是人物交互关系的这种识别,具体来说就是它需要识别在一张图片或者一个视频里,一个人现在在跟某一个物体做怎么样的交互?比如说hold the water,拿着杯子,或者说打开冰箱等等,这种的话就相当于是作用是把视频的这种高级别的语义提取出来,变成一个一个的主谓宾这样一个动词。

这一篇文章的主要贡献是把人在跟物体交互的时候,人的身体各部位之间的协同关系给挖掘出来了,把人的肢体跟肢体间的高阶关系,他们对它进行了一个显式的建模,这样的话他们会在人物关系识别任务上比之前最好的结果相对提升了10%的水平。

下图展示的是基于 ICCV 17的论文,开源的一个多元人体姿态估计及跟踪库,其中包括人体躯干、手指头、脸部一共100多个关键点。大家如果感兴趣的话,可以在GitHub上下载尝试。

二是,方浩树最近在机器人物体操作上面的工作。

机器人物体操作有一个难点,就是机器人物体抓取。如果一个物体它都抓不起来,实际上后续就没有办法进行任何的操作了。所以物体操作的重要性可以等同于物体检测在计算机领域里的重要性一样。但是物体抓取这么一个问题,它有很多痛点。因为现在它的问题本身是在机械领域,而在解决方案实际上是需要计算机视觉领域的人来做的。然后在传统机器人领域的话,一般做测试或者收集数据都是用真的机器来做,用它collection或者evaluation。这样的话对他们计算机视觉领域来说门槛太高了,因为不可能每个实验室都去买一台这种机械臂,这种一台可能要十几万、二十几万。但是在计算机视觉领域,之前存在两种数据收集还有验证的方法,一种是手工标注数据,这种的话可以看到它的标注的数据很稀疏,而且它跟真实的抓取是有差别的。然后另一种就是在仿真环境里模拟,这样的话存在一个问题,就是它的视觉感知跟真实的存在比较大的偏差。

题随之而来,是不是存在一种方式,它既可以提供真实的大量的这种抓取的数据,又能提供真实的视觉感知。基于此,他们就提出了GraspNet-1Billion,这是是第一个大规模,富标注,还带有一个统一评测框架的一个机器人抓取姿态的数据集。他们的构建哲学就是在真实的环境里获得视觉的感知,然后在仿真的环境里获得抓取的标签。

方浩树具体分为三个方面介绍了他们团队在这方面的工作。

一个方面是它具备的可迁移性和泛化性。这方面的工作牵扯到它目前的大规模的训练数据。下图描述了构建数据集的过程。第一步是在最左边给定一个物体的三维模型。它实际上是可以在仿真环境里获得单个物体的大量的抓取姿态的标签,一个物体的标签可能会有几百万级。下一步是通过物体的6D pose把该物体在图片上的位置标注出来,之后将物体和抓取姿态投影到图片上去。图中右边是实际收集的一个环境。

这个数据集的有如下几个特点:第一个特点是该数据集有丰富的原始的数据,包括物体的三维模型,多视角的图片,多相机拍摄,同时带有RGB和Depth的图片。第二个特点是它具有稠密的数据标签,包括了物体的6D位置,这就相当于得到了物体在图片里的translation和rotation,也就是位置还有旋转角信息。数据标签还有六维的抓取姿态、物体级别的掩码以及平面抓取姿态等。第三个特点是具有一个统一评测系统,评测系统会在线计算预测的抓取姿态的分数,降低了计算机视觉领域进行统一测评的门槛。方浩树利用了动图来具体展示了数据集的三个特点。

下图是他们团队跟现有公开数据集的一些对比。可以看到他们在抓取的标注上,即他标红框的两个位置,比之前的数据集都要高出好几个数量级。

下面是一些详细的信息对比。可以看到在多个维度上,比如说是不是有多个物体、还有是不是有每张图片有多个grasp pose、6 DoF的,以及是不是带有RGB-D的图片等等。可以看到他们这个数据集实际上在各个维度上都是完备的,同时他们的抓取姿态的数量也是达到10亿级别,比之前都要高很多。

三是,方浩树的团队在统一评测方面的工作。

刚才说到,机器人界或者图形学界或者计算机视觉系界的研究在做evaluation的时候是存在各种各样的问题。而方浩树的团队他们的做法是:在提供的一个真实的点云里,将数据交给一个算法,算法会进行预测。比如下图中,预测了A、B两个grasp,在得到预测grasp pose之后,首先在仿真环境里,进行一个 simulation,判断 grasp pose本身是不是稳定的。其次会利用受力分析,直接计算 grasp是不是能形成力闭锁,通过这两步就可以快速又简便,而且可以对各种各样的grasp pose表现形式都做一个统一的验证。

最后,方浩树的团队在在数据集的完备性上的工作。

完备性指的是它抓取姿态是特别丰富,可以适应于后续的路径规划,还有具体的物体操作的问题。如下图,方浩树结合他们团队发表的研究成果进行了讲解。

在这里,文章提出了一个端到端的网络,即 end to end Prediction的网络。具体还可以分成三个模块,第一个模块是Approach Net,它直接预测夹爪,从哪个方向来接近物体。第二个模块是OperationNet,它是预测夹爪在沿着接近物体的方向时,其旋转角应该是怎么样的,然后它夹转一下张开多大的宽度。最后一个模块是Tolerance Net,它是用来预测当前抓取点对扰动的抵抗能力。

预测的具体流程如下:

第一步是,输入是N个点,然后通过一个pointnet的结构提取出M个samples,接着通过一个ApproachNet预测一个点是不是可以抓的点,紧接着判断各个approach 方向的分数高低,分数高的就说明那个点更适合接近这个物体。第二步是,通过一个Group and Align的操作,把沿着那个方向的点云都crop出来,然后做一个旋转,把它们旋转到统一的空间里去。对每一个点云,会预测沿着哪个旋转角来接近它,以及预测夹爪应该张开多少度比较好。最后一步是,结合branch预测哪个点它对抖动的抵抗能力好,然后把这两个预测结果结合成最后的输出。

下图是这个网络在数据集上跟之前有一些算法的比较。可以看到这个网络达到了很好的效果。不过另一方面它也显示了实际上目前在这个领域还有很大的进步空间,因为可以看到现在的算法实际上准确率都没有很高。

下面是一些方浩树的团队在点云上预测的抓取姿态的结果。可以看到它抓取结果实际上还是比较可靠的。

下图中分享了他们最近正在做的工作。一个开放的社区的工作。链接也在下图中展示了出来,这里会展示一些模型和数据;第二个是开放的系统的工作。这一系统便于各个算法都可以做一个快速统一的测评。

最后,方浩树讲述了一些关于未来的展望。一个是说如果要从人类示例学习的话,有一个可能比较重要的点就是手部关键点的识别,因为他们发现在人物交互关系里,大部分场景,比如说人抓到什么东西,拿了一把刀或者说捡东西,握着杯子等等,大量的 interaction都是跟手部相关的,所以他们后面可能会进行一些手部姿态检测的工作,以及可能会需要 extend到3D的领域。第二个比较重要的就是机器人操作里怎么联合力跟视觉来进行学习。之前的研究指出,当人如果失去了触觉或者力的感知能力,比方说这个人可能神经受损了,它就感觉不到触觉了。这种时候进行抓取,成功率会下降很多。这从侧面反映了力跟视觉在抓取还有物体操作的重要性,所以后续另一个task可能就需要联合力跟视觉来进行这种grasp learning。

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-突破概率排序准则

3. 百度周景博:POI知识图谱的构建及应用

4. 百度宋勋超:百度大规模知识图谱构建及智能应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明:疫情下的“活”导航是如何炼成的

第十四期 深度学习线上专场

1. 中国科学院徐俊刚:自动深度学习解读

2. 北航孙钰:昆虫目标检测技术

3. 百度尤晓赫:EasyDL,加速企业AI转型

4. 百度邓凯鹏:飞桨视觉技术解析与应用

第十五期 大数据线上专场

1. 复旦赵卫东:大数据的系统观

2. 中科大徐童:AI×Talent数据驱动的智能人才计算

3. 百度李伟彬:基于PGL的图神经网络基线系统

4. 中科大张乐:基于人才流动表征的企业竞争力分析

第十六期 NLP前沿技术及产业化线上专场

1. 复旦大学黄萱菁:自然语言处理中的表示学习

2. 中科院刘康:低资源环境下的事件知识抽取

3. 百度何中军:机器翻译 —— 从设想到大规模应用

4. 百度孙宇:百度语义理解技术ERNIE及其应用

5. 哈佛邓云天:Cascaded Text Generation with Markov Transformers

6. 复旦大学桂韬:Uncertainty—Aware Sequence Labeling


推荐阅读专题


留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/107903118