这⾥的η 是个很⼩的┞俘数(称为进修速度,留意今后会经常见到它),我们看到
如许包管了∆C ≤ 0,即如不雅我们按照∆v方程这个规矩去改变 v,那么 C 会⼀直减⼩,不会增长,这恰是我们想要的特点,是以我们把∆v方程⽤于定义球体在梯度降低算法下的“活动定律”,也就是说我们⽤∆v方程计算∆v,来移动球体的地位 v:
然后我们⽤它再次更新规矩来计算下⼀次移动。如不雅我们反复持续如许做,我们将持续减⼩C 直到—— 正如我们欲望的 —— 获得⼀个全局的最⼩值。
总结⼀下,梯度降低算法⼯作的⽅式就是反复计算梯度 ∇C,然后沿着相反的⽅向移动,沿着⼭⾕“滚落”。我们可以想象泥像如许:
你可以把这个更新规矩看做定义梯度降低算法。这给我们供给了⼀种⽅式去经由过程反复改变 v来找到函数 C 的最⼩值。这个规出场不老是有效的 —— 有⼏件事能导致缺点,让我们⽆法大年夜梯度降低来求得函数 C 的全局最⼩值,这个不雅点我们会在后⾯的去商量。但在实践中,梯度降低算法平日⼯作地⾮常好,在神经⽹络中这是⼀种⾮常有效的⽅式去求价值函数的最⼩值,进⽽促进⽹络⾃⾝的进修。
【编辑推荐】
- 机械人怎么深度进修?逻辑断定和情感选择仍是障碍
- 摆好精确姿势 看 Google 神级深度进修框架 TensorFlow 的实践思路
- 有没有精深度进修融入机械人范畴的新测验测验?
- 深度进修在天然说话处理中的应用
- 用深度进修(CNN RNN Attention)解决大年夜范围文本分类问题 - 综述和实践
推荐阅读
《2016年度中国云办事及云存储市场分析申报》于近日宣布,经由过程对云办事及云存储市场全方位分析,揭示市场近况。数据显示,2016年,中国云办事市场范围达到516.6亿元。估计2017年,中国>>>详细阅读
本文标题:理解深度学习的钥匙 –启蒙篇
地址:http://www.17bianji.com/lsqh/34781.html
1/2 1