AMiner推荐论文：TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations

论文链接：https://www.aminer.cn/pub/6164fcc15244ab9dcb24cf7a?f=cs
在多项国际赛事中夺得冠军则是指，TiKick在单智能体控制和多智能体控制上均取得了SOTA性能，并且还是首次实现同时操控十个球员完成整个足球游戏。
这支强大的AI团队是如何训练出来的呢？
从单智能体策略中进化出的多智能体足球AI
在此之前，先简单了解一下训练所用的强化学习环境，也就是这个足球游戏：Google Research Football（GRF）。
它由谷歌于2019年发布，提供基于物理的3D足球模拟，支持所有主要的比赛规则，由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
在由三千步组成的上下半场比赛中，智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。
在这样的足球游戏环境中进行强化学习难度有二：
一是因为多智能体环境，也就是一共10名球员（不含守门员）可供操作，算法需要在如此巨大的动作空间中搜索出合适的动作组合；
二是大家都知道足球比赛中一场进球数极少，算法因此很难频繁获得来自环境的奖励，训练难度也就大幅增大。
而清华大学此次的目标是控制多名球员完成比赛。
他们先从Kaggle在2020年举办的GRF世界锦标赛中，观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据，使用离线强化学习方法从中学习。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

AMiner推荐论文：TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations

猜你喜欢