通用AlphaGo出生? MuZero在多种棋类中超出人类

人工智能

  文章起源:机器之心大众号

DeepMind近期的一项研究提出了MuZero算法,该算法在不具备任何底层动态常识的情况下,通过联合基于树的搜索和学得模型,在雅达利2600游戏中达到了SOTA表现,在国际象棋、日本将棋和围棋的精确规划义务中可以匹敌AlphaZero,甚至超过了提前得悉规则的围棋版AlphaZero。

  MuZero 算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示 Elo评分。黄色线代表 AlphaZero(在雅达利游戏中代表人类表现),蓝色线代表 MuZero。

  基于前向搜索的规划算法已经在 AI 领域获得了很大的胜利。在围棋、国际象棋、西洋跳棋、扑克等游戏中,人类世界冠军一次次被算法战胜。此外,规划算法也已经在物流、化学合成等诸多事实世界领域中发生影响。然而,这些规划算法都依附于环境的动态变更,如游戏规则或精确的模仿器,导致它们在机器人学、产业把持、智能助理等领域中的利用受到限度。

  基于模型的强化学习旨在通过以下步骤解决这一问题:首先学习一个环境动态模型,而后依据所学模型进行计划。个别来说,这些模型要么着眼于重建实在的环境状况,要么着眼于完全察看成果的序列。然而,之前的研究在视觉上丰盛的范畴还远远不达到 SOTA 水准,如雅达利 2600 游戏。

  最受欢送的办法是基于无模型强化学习的方式,即直接从智能体与环境的交互中估计优化策略和/或价值函数。但在那些须要精确和庞杂前向搜索的领域(如围棋、国际象棋),这种无模型的算法要远远落伍于 SOTA。

  研讨者在57个不同的雅达利游戏中评估了MuZero,发明该模型在雅达利2600游戏中到达了SOTA表示。此外,他们还在不给出游戏规则的情形下,在国际象棋、日本将棋和围棋中对MuZero模型进行了评估,发现该模型能够匹敌AlphaZero超出人类的表现。而且,在该试验中,其先辈AlphaZero提前获知了规矩。

  MuZero 算法概览

  MuZero 基于 AlphaZero 强盛的搜索和基于搜寻的策略迭代算法,但又将一个学习好的模型整合到了练习步骤中。MuZero 还将 AlphaZero 扩大到了一个更加普遍的环境聚集,包括单个智能体域跟旁边时光步上的非零嘉奖。

  该算法的重要思路是预测那些与规划直接相关的未来行为(如下图 1 所示)。模型将吸收到的观察结果(如围棋棋盘图像或雅达利游戏截图)作为输入,然后将其转换为一个隐藏状态。接下来,通过一个循环过程来迭代更新该隐藏状态,该轮回过程接受前一个隐藏状态和假设的下一步操作。

  在每一个步骤上,模型会预测策略(如玩的动作)、价值函数(如预测的赢家)以及即时奖励。对模型进行端到端训练的独一目的是正确估计这三个主要的量,以匹配改良的策略估量和通过搜索及观察到的奖励天生的值。

  对隐蔽的状态,没有直接的束缚和请求来捕捉重建原始观察结果所需的信息,大大减少了模型保护和预测的信息量;也没有要求隐藏状态匹配环境中未知、真实的状态;更没有针对状态语义的其他约束。

  相反,暗藏状态可能地以任何与预测当前和未来值和策略相干的方法来表现状态。直观地说,智能体可以在内部创立规则和动态,以实现最准确的规划。

  图 1:用一个训练好的模型进行规划、行为和训练。(A)MuZero 利用其模型进行规划的方式;(B)MuZero 在环境中产生作用的方式;(C)MuZero 训练其模型的方式。

  MuZero 算法详解

  研究者对 MuZero 算法进行了更具体的解读。在每个时间步 t 上、以过往视察结果 O_1, …, O_t 和未来行动 a_t+1, …, a_t+k 为前提、通过一个存在参数θ的模型µ_θ,为每个 k=1…K 步进行猜测。该模型预测三种将来数目:策略

  、价值函数

  和即时奖励

  ,其中 u。 表示观察到的准确奖励,π表示用来取舍实时举动的策略,γ表示环境的贴现函数(discount function)。

  在每个时间步 t 上,MuZero 模型由表征函数、动态函数和预测函数结合表征。在本文中,研究者对动态函数进行了确实的表征。策略和价值函数则通过预测函数

  并根据内部状态 s^k 来盘算,这与 AlphaZero 的联合策略和价值网络相似。

  给定这样一个模型,则有可能在基于过往观察结果 O_1, …, O_t 的情况下查找基于假设的未来轨迹 a^1, …, a^k。例如,一个简略的搜索可以轻松地抉择最大化价值函数的 k 步动作序列。更广泛地说,咱们或者可以将任何 MDP(马尔科夫决议进程)规划算法运用于由动态函数推导出的内部奖励和状态空间。

  对于每个假设的时间步 k,模型的所有参数接收联合训练,从而在 k 个实际的时间步后,对策略、价值和奖励与它们各自对应的目标值进行精确的匹配。与 AlphaZero 相似,晋升后的策略目标通过蒙特卡洛树(MCTS)搜索生成。第一个目标是最小化预测策略 p^k_t 和搜索策略π_t+k 之间的误差;第二个目标是最小化预测值 v^k_t 和价值目标 z_t+k 之间的误差;第三个目标是最小化预测奖励 r^k_t 和观察到的奖励 u_t+k 之间的误差。最后增加 L2 正则化项,得出以下总丧失:

  实验结果

  在实验中,研究者将 MuZero 算法应用于围棋、国际象棋和日本将棋等经典棋盘游戏中,作为挑衅规划问题的基准;同时又应用于雅达利游戏环境中的 57 个游戏,作为视觉复杂强化学习领域的基准。

  下图 2 展示了 MuZero 算法在每个游戏训练中的机能。在围棋游戏中,只管搜索树中每个节点的计算量小于 AlphaZero,但 MuZero 的性能仍然稍微超过 AlphaZero。这表明 MuZero 可能在搜索树中缓存本身计算,并应用动态模型的每个附加应用来对地位产生更深的懂得。

  图 2:MuZero 算法分辨在国际象棋、日本将棋、围棋和雅达利游戏训练中的评估结果。在国际象棋、日本将棋和围棋游戏中,横坐标表示训练步骤数量,纵坐标表示 Elo 评分。

  表 1:雅达利游戏中 MuZero 与先前智能体的对照。研究者分离展现了大范围(表上局部)和小规模(表下部门)数据设置下 MuZero 与其他智能体的比较结果,表明 MuZero 在均匀分、得分中位数、Env。 Frames、训练时间和训练步骤五项评估指标(红框)取得了新的 SOTA 结果。

  为了懂得 MuZero 中模型的作用,研究者还重点在围棋和吃豆人雅达利游戏中进行了以下多少项实验。他们首先在围棋的典范规划问题上测试了规划的可扩展性(下图 3A)。此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图 3B)。接着,他们将本人基于模型的学习算法与其余类似的无模型学习算法进行了比拟(下图 3C)。

  图 3:MuZero 在围棋、57 个雅达利游戏、吃豆人游戏上的评估结果。

  论文链接:https://arxiv.org/pdf/1911.08265.pdf

  第三届机器之心‘Synced Machine Intelligence Awards’年度奖项评比正在进行中。本次评比设置六大奖项,重点关注人工智能公司的产品、应用案例和工业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。

  参选报名日期:2019 年 10 月 23 日~2019 年 12 月 15 日

  评审期:2019 年 12 月 16 日~2019 年 12 月 31 日

  奖项颁布:2020 年 1 月

(责编:樊璐璐)


Copyright © 2002-2019 四季彩票注册www.renqimaimai.com版权所有