杀疯了！通过游戏“元宇宙”，Deepmind让AI学会玩各种没玩过的游

2021-08-27 15:18　出处：互联网　人气：　评论（）

网游加速器哪个好减肥药排行榜前10名 av女优大全中国幸福城市排行榜世界犬种智商排行中国保险行业排行榜角色名

主页（http://www.zhonghuagame.com）：杀疯了！通过游戏“元宇宙”，Deepmind让AI学会玩各种没玩过的游

近期，Deepmind 将这方面的研究又向前推进了一步。

在学习的过程中，Deepmind 让这些智能体 AI 由易到难开始学习，不断补齐在竞争性、平衡性、可选则性、探索难度这是个方面的短板，每成功解锁一个游戏，AI 都会获得奖励，从而一步一步变成游戏大师。

这种面对任务一看就会的 AI，离我们心里的通用人工智能还有多远？

https://storage.googleapis.com/deepmind-media/papers/Open-Ended%20Learning%20Leads%20to%20Generally%20Capable%20Agents/open-ended-learning-paper.pdf

最后，AI 发现了一个最简单的方法，直接将小球放到一块板子上，小球不就永远不会跟地板接触了，nice~

论文链接：

为了驾驭各种小游戏，Deepmind 的 AI 骚操作不断

我们来看看怎么回事。

这一切，都要归功于 Deepmind 打造的游戏 " 元宇宙 "。

论文总是枯燥的，所以文摘菌先带大家看一看 Deepmind 的演示，看看这些 AI 在没玩过这些游戏的情况下，是如何通过各种骚操作赢的游戏的。

在 2019 年，文摘菌就报道过，。

下一个游戏也是合作类的，目标是阻止紫色的球滚落到红色的地面。这次游戏两个 AI 一共探索了三种方法，第一种是用自己的身体挡住小球，显然，这个方法比较低效；

https://deepmind.com/research/publications/2021/open-ended-learning-leads-to-generally-capable-agents

同时，为了让智能体更加多才多艺，获得更加泛化的能力，研究人员设定在学习时，每个新任务都要基于通关的旧任务生成，保持学习的连续性。

而右上角那个游戏，则是要求将几何体按颜色归类到一起，多个智能体合作完成任意一组配对就可以，所以竞争性很低，但是可选择性很强。

先来一个 OpenAI 之前探索过的捉迷藏游戏，下面这张图中正在追赶的是蓝色的 AI 小人，左上角是它的第一视角，而躲藏的是红色 AI 小人。

上面几款游戏都是 AI 从未玩过的，但显然 AI 在接触一会之后，都会成功找到获胜的方法，这中间有的是依靠合作，有的则需要博弈。

AI 研究机构一直致力于通过一些涉及到合作和博弈的游戏来开发 AI 在这方面的能力。

相关报道：

这样的开放式训练让一些基于强化学习的智能体甚至可以达到零样本学习。

第二种方法是借助两侧的墙面，将小球挤到墙角不动就行；

为了达到轻易上手各种游戏的效果，Deepmind 为这些 AI 智能体打造了一个包含数十亿游戏任务的 " 元宇宙 "，名为 XLand。

比如左上角那个例子，游戏双方需要将小球赶到自己的区域才算获胜，" 不是你死就是我亡 "，一点合作的机会都没有，所以它的竞争性指标直接被拉满了。

除了由易到难的训练顺序，Deepmind 的研究人员的训练方法也很符合人类的习惯，通过估计游戏的子目标，要想达到胜利，需要先完成什么，后完成什么，这样一步步持续引导智能体的注意力。

不过这远没有结束，目标是接触到塔尖，而不是非得爬上去，所以 AI 又成功发现了另一个更简单的方法，直接用一款板子将紫色塔尖砸下来不久行了。

为了让 AI 智能体学会举一反三，Deepmind 打造包含数十亿任务的游戏 " 元宇宙 "

不过，蓝色 AI 小人也不是吃素的，在另一个地图上，蓝色 AI 小人丢失了自己的目标，但是他结合地形发现了更好的追捕方法——登上制高点。最终，红色 AI 小人被抓到了。

大数据文摘出品

上面是一款博弈的游戏，下面我们来看一款相互合作的游戏。游戏的目标很简单，两个 AI 只要有一个到达一个高台上的紫色塔尖就行，于是当其中一个 AI 成功将一款板子搭到了高台上，任务便成功完成了。

根据 7 月 27 日 Deepmind 官方博客的介绍，Deepmind 最新的 AI 智能体可以在没有玩过一款游戏的时候，而这一切的背后居然是 Deepmind 搭建的一款游戏 " 元宇宙 "。

在这个游戏 " 元宇宙 " 中，无数的 " 游戏星球 " 组成了 " 游戏星系 "，每个星球上的游戏按竞争性、平衡性、可选则性、探索难度四个纬度进行区分。

Deepmind 的这个成就让大家似乎见到了通用人工智能的曙光，也许在人类看来这些 AI 或许还很笨，但是最起码，他们不再每玩一个游戏就要训练上亿次了。

最终，通过四次迭代，产生出的第五代就可以更好的适合各种环境，各种合作和博弈任务。最后的第五代智能体在 XLand 4000 多个 " 星球 " 中共玩了 70 万个游戏，经历了 2000 亿次训练，完成了 340 万个独特任务。

最后再来看一个登顶小游戏，两个 AI 比赛，成功站立在白色高台上的获胜，首先是蓝色 AI 小人先找到了白色高台并且登了上去，在它以为自己已经获胜的时候，红色 AI 小人直接过来，将蓝色 AI 小人干掉，自己留在了白色高台上。

为了躲避蓝色小人的追捕，红色小人果断进入了一个从未探索果过的陌生地域，还顺手将一块板子横在身后。要注意的是，双方 AI 都没有玩过这款游戏。

对于 AI 来说，完成一个单一任务或许相对简单，但是涉及到合作和博弈时，AI 往往显得有些愚蠢。

点「在看」的人都变好看了哦！

分享给小伙伴们：

本文标签：

游戏新闻

游戏开服

游戏攻略

单机游戏

网页游戏

网络游戏

手机游戏

游戏竞技

小游戏

杀疯了！通过游戏“元宇宙”，Deepmind让AI学会玩各种没玩过的游

更多文章

相关文章