您的位置：首页 >评测 >

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

来源：量子位时间：2021-11-10 14:05:18

“只见 4 号球员在队友的配合下迅速攻破后防，单刀直入，一脚射门，球，进了！”

观众朋友们大家好，您现在看到的是谷歌 AI 足球比赛的现场，场上身着黄色球衣的是来自清华大学的 AI 球员。

这届清华 AI 可不一般，他们在艰苦训练之下，不仅有个人能力突出的明星球员，也有世界上最强最紧密的团队合作。

在多项国际比赛中所向披靡，夺得冠军。

“Oh，现在 7 号接过队友传来的助攻，临门一脚，球又进了！”

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

言归正传，以上其实是清华大学在足球游戏中打造的一个强大的多智能体强化学习 AI——TiKick。

在多项国际赛事中夺得冠军则是指，TiKick 在单智能体控制和多智能体控制上均取得了 SOTA 性能，并且还是首次实现同时操控十个球员完成整个足球游戏。

这支强大的 AI 团队是如何训练出来的呢？

从单智能体策略中进化出的多智能体足球 AI

在此之前，先简单了解一下训练所用的强化学习环境，也就是这个足球游戏：Google Research Football（GRF）。

它由谷歌于 2019 年发布，提供基于物理的 3D 足球模拟，支持所有主要的比赛规则，由智能体操控其中的一名或多名足球运动员与另一方内置 AI 对战。

在由三千步组成的上下半场比赛中，智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等 19 个动作完成进球。

在这样的足球游戏环境中进行强化学习难度有二：

一是因为多智能体环境，也就是一共 10 名球员（不含守门员）可供操作，算法需要在如此巨大的动作空间中搜索出合适的动作组合；

二是大家都知道足球比赛中一场进球数极少，算法因此很难频繁获得来自环境的奖励，训练难度也就大幅增大。

而清华大学此次的目标是控制多名球员完成比赛。

他们先从 Kaggle 在 2020 年举办的 GRF 世界锦标赛中，观摩了最终夺得冠军的 WeKick 团队数万场的自我对弈数据，使用离线强化学习方法从中学习。

这场锦标赛只需控制场中的一名球员进行对战。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

如何从单智能体数据集学习出多智能体策略呢？

直接学习 WeKick 中的单智能体操作并复制到每个球员身上显然不可取，因为这样大家都只会自顾自地去抢球往球门冲，根本就不会有团队配合。

又没有后场非活跃球员动作的数据，那怎么办？

他们在动作集内添加了第二十个动作：build-in，并赋予所有非活跃球员此标签 (比赛中若选用 build-in 作为球员的动作，球员会根据内置规则采取行动)。

接着采用多智能体行为克隆 (MABC) 算法训练模型。

对于离线强化学习来说，最核心的思想是找出数据中质量较高的动作，并加强对这些动作的学习。

所以需在计算目标函数时赋予每个标签不同的权重，防止球员倾向于只采用某个动作作为行动。

这里的权重分配有两点考虑：

一是从数据集中挑选出进球数较多的比赛、只利用这些高质量的数据来训练，由于奖励较为密集，模型能够加速收敛并提高性能。

二是训练出 Critic 网络给所有动作打分，并利用其结果计算出优势函数，然后给予优势函数值大的动作较高的权重，反之给予较低的权重。

此处为了避免梯度爆炸与消失，对优势函数做出了适当的裁剪。

最终的分布式训练架构由一个 Learner 与多个 Worker 构成。

其中 Learner 负责学习并更新策略，而 Worker 负责搜集数据，它们通过 gRPC 进行数据、网络参数的交换与共享。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

Worker 可以利用多进程的方式同时与多个游戏环境进行交互，或是通过 I/O 同步读取离线数据。

这种并行化的执行方式，也就大幅提升了数据搜集的速度，从而提升训练速度（5 小时就能达到别的分布式训练算法两天才能达到的同等性能）。

另外，通过模块化设计，该框架还能在不修改任何代码的情况下，一键切换单节点调试模式和多节点分布式训练模式，大大降低算法实现和训练的难度。

94.4% 的获胜率和场均 3 分的净胜分

在多智能体（GRF）游戏上的不同算法比较结果中，TiKick 的最终算法（+AW）以最高的获胜率（94.4%）和最大的目标差异达到了最佳性能。

TrueSkill（机器学习中竞技类游戏的排名系统）得分也是第一。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

TiKick 与内置 AI 的对战分别达到了 94.4% 的胜率和场均 3 分的净胜分。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

将 TiKick 与 GRF 学术场景中的基线算法进行横向比较后发现，TiKick 在所有场景下都达到了最佳性能和最低的样本复杂度，且差距明显。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

与其中的基线 MAPPO 相比还发现，在五个场景当中的四个场景都只需 100 万步就能达到最高分数。

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

作者介绍

一作黄世宇，清华大学博士生，研究方向为计算机视觉、强化学习和深度学习的交叉领域。曾在华为诺亚方舟实验室、腾讯 AI、卡内基梅隆大学和商汤工作。

共同一作也是来自清华大学的陈文泽。

此外，作者还包括来自国防科技大学的 Longfei Zhang、腾讯 AI 实验室的 Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清华大学的 Chen Ting。

通讯作者为清华大学的朱军教授。

论文地址：

https://arxiv.org/abs/2110.04507

项目地址：

https://github.com/TARTRL/TiKick

参考链接：

https://zhuanlan.zhihu.com/p/421572915

返回物联之家 - 物联观察新视角,国内领先科技门户首页 >>

　　版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场。

延伸阅读

清华打造足球 AI：首次实现同时控制 10 名球员完成比赛，胜率 94.4%

“只见 4 号球员在队友的配合下迅速攻破后防，单刀直入，一脚射门，球，进了！”观众朋友们大家好，您现在看到的是谷歌 AI 足球比赛的现场，场
2021-11-10
三星提示没有更多平面银河系模型

三星已经下降了提示，前进，该公司可以完全挖掘平面平板Galaxy S模型，支持弯曲显示器的变体。暗示来自公司的移动首席董
2021-11-10
9月初的摩托Z在英国土地售价为495英镑

Moto Z和Moto Z Force已经在美国出售，但到目前为止他们一直是verizon独家。现在，如果你住在英国，正
2021-11-10
每周轮询：三星Galaxy Note7，热还是不热？

三星Galaxy Note7是过去七天的高调推出，我们在出售前几个星期的预订。美国正在获得一些甜蜜的免费赠品 - 一个选
2021-11-10
254TOPS算力！NVIDIA：百度自动驾驶将搭载Orin芯片

据国内媒体报道，NVIDIA创始人兼首席执行官黄仁勋宣布，未来将与百度加深合作。官方表示，百度第三代自动驾驶平台ACU（Apollo Com
2021-11-10
华为捐赠欧拉共建数字基础设施开源操作系统

在2021操作系统产业峰会上，华为携手社区全体伙伴共同将欧拉开源操作系统（openEuler,简称“欧拉”）正式捐赠给开放原子开源基金会，加
2021-11-10
助力双循环，菜鸟欧洲最大智慧物流枢纽比利时列日eHub正式投入使用

近日，菜鸟在欧洲最大的智慧物流枢纽——比利时列日eWTP Hub正式投入使用。该物流基础建设项目将进一步服务中欧进出口双向跨境贸易，助力双循
2021-11-10
福特 CEO 内部会上称赞特斯拉，指出后者成功三大关键因素

11 月 10 日消息，据外媒 Electrek 报道，福特 CEO Jim Farley 在最近的公司内部会议上称赞了特斯拉，表示特斯拉的
2021-11-10

最新文章

车用芯片短缺缓解，丰田、日产等汽车制造商计划提高产量

精彩推荐

产业新闻

马斯克曾想将特斯拉卖给苹果，库克回应：不记得了

热门推荐