深度强化学习入门：用TensorFlow构建你的第一个游戏AI

loss += batch_loss

win_hist.append(win_cnt)

return win_hist

我将这个游戏机械人练习了 5000 个 epoch，结不雅表示得很不错！

Catch 机械人的动作

正如你在上述动图中看到的那样，机械人可以抓住大年夜天空中掉落落的苹不雅。为了将这个模型进修的过程可视化，我绘制了每一个 epoch 的胜好处动平均线，结不雅如下：

【编辑推荐】

【义务编辑：庞桂玉 TEL：（010）68476606】

接下来做什么？如今，你已经对强化进修有了初步的直觉懂得。我建议细心浏览该教程的完全代码。你也可以实验看看。

　　推荐阅读

　　什么是云计算数据中心？云计算数据中心和传统IDC有何区别？

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践传统小IDC存活将更难，那么必>>>详细阅读

地址：http://www.17bianji.com/lsqh/39071.html