首页 人工智能正文

DeepMind的Agent57在57个经典的Atari游戏中击败了人类

2020-04-05_095643.jpg

在谷歌母公司Alphabet的英国研究部门DeepMind本周发布的预印本中,一组科学家描述了Agent57,他们说这是Arcade Learning Environment数据集中在所有57种Atari游戏上优于人类的第一个系统。

假设索赔成立,Agent57可以为比以前发布的功能更强大的AI决策模型奠定基础。对于希望通过工作场所自动化提高生产力的企业而言,这可能是福音。想象一下,人工智能不仅可以自动完成平凡的重复性任务(例如数据输入),还可以自动完成其环境的原因。

该研究的合著者写道:“借助Agent57,我们成功构建了一种更具普遍意义的智能代理,该代理在Atari57基准测试的所有任务上均具有超乎人类的表现。” “ Agent57能够随着计算量的增加而扩展:训练的时间越长,得分越高。”

街机学习环境

正如研究人员所解释的那样,建议将Arcade Learning Environment(ALE)作为一个平台,用于根据经验评估旨在针对各种游戏的总体能力而设计的代理商。为此,它为各种 Atari 2600游戏环境提供了一个界面,旨在吸引人类玩家,并为其带来挑战。

为什么选择Atari 2600游戏?主要是因为它们具有以下特点:(1)有足够的变化来声称具有普遍性;(2)足够有趣,足以代表实践中可能遇到的设置;(3)由独立的团队创建,因此没有实验者的偏见。期望代理商在尽可能多的游戏中表现良好,对现有领域进行最少的假设,而无需使用游戏特定的信息。

DeepMind自己的Deep Q网络是在许多Atari 2600游戏中实现人机控制的第一个算法。随后,OpenAI和DeepMind系统在Pong和Enduro 展示了超人的表现;优步模型学会了完成蒙特祖玛的复仇的所有阶段;DeepMind的MuZero自学成才,在51款游戏中超越了人类的表现。但是到目前为止,还没有任何一种算法能够在ALE中的所有57款游戏中取得完美的成绩。

强化学习挑战

为了实现最先进的性能,DeepMind的Agent57可同时在多台计算机上运行,并利用强化学习(RL),其中AI驱动的软件代理会采取行动以最大化回报。强化学习在视频游戏领域显示出了巨大的希望-OpenAI的OpenAI Five和DeepMind自己的AlphaStar RL代理商在公共服务器上分别击败了Dota 2玩家的99.4%和StarCraft 2玩家的99.8%-这绝不是完美的,因为研究人员指出。

2020-04-05_095806.jpg


存在长期信用分配问题,或者确定随后最有利(或负面)结果的信用决定的问题,这在奖励被延迟并且需要在较长的行动序列上分配信用时尤其困难。然后是探索和灾难性的遗忘。在看到第一个肯定的奖励之前,可能需要在游戏中执行数百个动作,并且特工很容易陷入困境,无法在随机数据中寻找模式,或者在学习新信息时突然忘记先前学习的信息。

为了解决这个问题,DeepMind团队建立在永不放弃(NGU)之上,该技术是公司内部开发的一种技术,它通过内部产生的内在奖励在两个层次上对新颖性敏感,从而增强了奖励信号:一集内的短期新颖性和各个情节的长期新颖性。(长期新颖性奖励鼓励在整个训练过程中访问许多州,跨越多个情节,而短期新颖性奖励则鼓励在短时间内访问多个州,例如在游戏的单个情节中。)NGU使用情节记忆来学习一个旨在探索和利用的政策,其最终目标是在利用政策下获得最高分。

NGU的一个缺点是,无论其对学习进度的贡献如何,NGU都会遵循其每条策略收集相同数量的经验,但是DeepMind的实现会在其一生的整个过程中调整其探索策略。这使其能够专注于正在学习的特定游戏。

Agent57

Agent57的架构使其可以通过让许多参与者进入一个供学习者进行采样的集中式存储库(重播缓冲区)来收集数据。重播缓冲区包含定期修剪的过渡序列,这些过渡序列来自与与游戏环境的独立优先副本进行交互的actor进程。

DeepMind团队使用两种不同的AI模型来近似估算每个状态操作值,该值指定了代理在给定策略下在状态下执行特定操作的效果如何,从而使Agent 57代理能够适应相关的规模和方差与他们相应的奖励。他们还集成了一个在每个角色上独立运行的元控制器,可以自适应地选择在培训和评估时使用哪些策略。

2020-04-05_095925.jpg

正如研究人员所解释的那样,元控制器具有两个优点。通过选择在培训期间优先处理的策略,它可以使Agent57分配更多的网络容量,以更好地表示与手头任务最相关的策略的状态操作值功能。此外,它提供了一种自然的方式,可以选择评估中要使用的最佳家庭政策。

实验

为了评估Agent57,DeepMind团队将其与包括MuZero,R2D2和NGU在内的领先算法进行了比较。他们报告说,虽然MuZero在所有57场比赛中均获得了最高的平均得分(5661.84)和中位数(2381.51),但在诸如Venture之类的游戏中却惨败,得分达到了与随机策略相当的水平。实际上,与R2D2(96.93)和MuZero(89.92)相比,Agent57的平均表现上限更高(100),在51场比赛中超过50亿帧,超越了人类的表现;在滑雪比赛中,超过了780亿帧。

接下来,研究人员分析了使用元控制器的效果。他们自己说,与R2D2相比,它的性能提高了近20%,即使在Solaris和Skiing等长期信用分配游戏中,代理商也必须长时间收集信息才能获得学习所需的反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论

Copyright © 2020 互联资讯 技术支持:数据中心 特别赞助:群晖NAS