深度强化学习入门：用TensorFlow构建你的第一个游戏AI

Catch 是一个异常简单的街机游戏，你可能在孩提时代玩过它。游戏规矩如下：水不雅大年夜屏幕的顶部落下，玩家必须用一个篮子抓住它们；每抓住一个水不雅，玩家得一分；每漏掉落一个水不雅，玩家会被扣除一分。这里的目标是让电脑本身玩 Catch 游戏。不过，我们不会应用这么漂亮的游戏界面。相反，我们会应用一个简单的游戏版本来简化义务：

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践

因为嘉奖的延迟性，优良的象棋选手并不会仅经由过程最直接可见的嘉奖来选择他们的落子方法。相反，他们会推敲预期将来嘉奖（expected future reward），并据此进行选择。例如，他们不仅要推敲下一步是否可以或许祛除敌手的一个棋子。他们也会推敲那些大年夜长远的角度有益的行动。

深度强化进修入门：用TensorFlow构建你的第一个游戏AI

客岁，DeepMind 的 AlphaGo 以 4-1 的比分打败了世界围棋冠军李世乭。跨越 2 亿的不雅众就如许看着强化进修（reinforce learning）走上了世界舞台。几年前，DeepMind 制造了一个可以玩 Atari 游戏的机械人，激发轩然大年夜波。此后这个公司很快被谷歌收购。

很多研究者信赖，强化进修是我们创造通用人工智能（Artificial General Intelligence）的最佳手段。这是一个令人高兴的范畴，有着很多未解决的挑衅和巨大年夜的潜能。

强化进修起先看似异常有挑衅性，但其实要入门并不艰苦。在这篇文┞仿中，我们将创造一个基于 Keras 的简单机械人，使它能玩 Catch 游戏。

Catch 游戏

原始的 Catch 游戏界面

简化的 Catch 游戏界面

这个义务可以被看做一个简单的分类问题。我们可以让游戏专家多次玩这个游戏，并记录他们的行动。然后，可以经由过程选择类似于游戏专家的「精确」动作来练习模型。

但这实际上并不是仁攀类进修的方法。仁攀类可以在无指导的情况下，自学像 Catch 如许的游戏。这异常有效。想象一下，你如不雅每次想进修像 Catch 一样简单的器械，就必须雇佣一批专家玩这个游戏上千次！这必定异常昂贵而迟缓。

玩 Catch 游戏时，玩扼要决定三种可能的行动。玩家可以将篮子左移、右移或保持不动。这个决定取决于游戏的当缁ご态。也就是说，取决于不雅子掉落落的地位和篮子的地位。我们的目标是创造如许一个模型：它能在给定游戏屏幕内容的情况下，选择导致得分最高的动作。

而在强化进修中，模型不会根据标记的数据练习，而是经由过程以往的经历。

深度强化进修

强化进修受行动心理学启发。我们并不为模型供给「精确的」行动，而是赐与嘉奖和处罚。该模型接收关于当前情况状况的信息（例如计算机游戏屏幕）。然后，它将输出一个动作，厩ㄑ游戏手柄一样。情况将对这个动作做出回应，并供给下一?状况和奖惩行动。

据此，模型进修并寻找最大年夜化嘉奖的行动。

实际上，有很多方法可以或许做到这一点。下面，让我们懂得一下 Q-Learning。应用 Q-Learning 练习计算机玩 Atari 游戏的时刻，Q-Learning 曾引起了轰动。如今，Q-Learning 依然是一个有重大年夜意义的概念。大年夜多半现代的强化进修算法，都是 Q-Learning 的一些改进。

懂得 Q-Learning

懂得 Q-Learning 的一个好办法，就是将 Catch 游戏和下象棋进行比较。

在这两种游戏中，你都邑获得一个状况 S。在象棋中，这代表棋盘上棋子的地位。在 Catch 游戏中，这代表水不雅和篮子的地位。

Catch 游戏和象棋的一个合营点在于，嘉奖并不会立即竽暌箍如今动作之后。

在 Catch 游戏中，只有在水不雅掉落到篮子里或是撞到地板上时你才会获得嘉奖。而在象棋中，只有在整盘棋赢了或输了之后，才会获得嘉奖。这也就是说，嘉奖是稀少分布的（sparsely distributed）。大年夜多半时刻，R 保持为零。

产生的嘉奖并不老是前一个动作的结不雅。也许，很早之前采取的某些动作才是获胜的关键。要弄清跋扈哪个动尴尬刁难最终的嘉奖负责，这平日被称为信度分派问题（credit assignment problem）。

在 Q-Learning 中，我们根据最高的预期将来嘉奖选行动。我们应用 Q 函数进行计算。这个数学函数有两个变量：游戏的当缁ご态和给定的动作。是以，我们可以将其记为 Q（state，action）。在 S 状况下，我们将估计每个可能的动作 A 所带来的的回报。我们假定在采取行动 A 且进入下一?状况 S’ 今后，一切都很完美。

对于给定状况 S 和动作 A，预期将来嘉奖 Q（S，A）被计算为即时嘉奖 R 加上厥后的预期将来嘉奖 Q（S’，A’）。我们假设下一?动作 A’ 是最优的。

因为将来的不肯定性，我们用 γ 因子乘以 Q（S’，A’）表示扣头：

Q(S,A) = R + γ * max Q(S’，A’)

象棋高手善于在心里估算未往返报。换句话说，他们的 Q 函数 Q（S，A）异常精确。大年夜多半象棋练习都是环绕着成长更好的 Q 函数进行的。玩家应用棋谱进修，大年夜而懂得特定动作若何产生，以及给定的动作有多大年夜可能会导致成功。然则，机械若何评估一个 Q 函数的短长呢？这就是神经收集大年夜展身手的处所了。

1/8 1 2 3 4 5 6 下一页尾页

　　推荐阅读

　　什么是云计算数据中心？云计算数据中心和传统IDC有何区别？

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践传统小IDC存活将更难，那么必>>>详细阅读

本文标题：深度强化学习入门：用TensorFlow构建你的第一个游戏AI

地址：http://www.17bianji.com/lsqh/39071.html

1/2 1