深度进修的核心问题就是一个异常难的优化问题。所以在神经收集惹人后的几十年间,深度神经收集的优化问题的艰苦性是阻碍它们成为主流的一个重要身分。并导致了它们在20世纪90年代到21世纪初时代的式微。不过如今已经根本解决了这个问题。在本篇博文中,我会商量优化神经收集的“艰苦性”,以及理论上是怎么解释这个问题的。简而言之:神经收集变得越深,优化问题就会变得越难。
最简单的神经收集是单节点感知器,其优化问题是凸问题。凸优化问题的好处是所有的局部最小值也是全局最小值。存在各类各样的优化算法来解决凸优化问题,并且每隔几年就会发明更好的用于凸优化的多项式时光的算法。应用凸优化算法可以轻松地优化单个神经元的权重(拜见下图)。下面让我们看看扩崭荷琐单神经元后会产生什么。
给定一个一般的神经收集和一组练习样本,是否存在一组收集边权重使得神经收集能为所有的练习样本产生精确的输出?
下一步天然就是在保持单层神经收集的情况下添加更多的神经元。对于单层n节点感知器的神经收集,如不雅存在边权重可以使得神经收集能精确地对练习集进行分类,那么如许的边权重是可以经由过程线性筹划在多项式时光O(n)内找到。线性筹划也是凸优化的一种间谍作况。这时一个问题应运而生:我们可以对更深的独裁神经收集做出这种类似的包管么?不幸的是,不克不及。
为了可证实地解决两层或独裁的一般神经收集的优化问题,须要的算法将会碰到某些计算机科学中最大年夜的未解问题。是以我们对机械进修研究人员测验测验找到可证实地解决深度神经收集优化问题的算法不抱有太大年夜的欲望。因为这个优化问题是NP-hard问题,这意味着如不雅在多项式时光内可证实地解决这个问题,那么也可以解决那些几十年来尚未被解决的成千上万的问题。事实上,J. Stephen Judd在1988年就发明下面这个问题是NP-hard问题:
Judd的研究还注解:即使请求一个神经收集只为三分之二的练习样本产生精确的输出仍然是一个NP-hard问题。这意味着即使在最坏的情况下,近似练习一个神经统??本质上照样艰苦的。1993年Blum和Rivest发明的事实更糟:即矢荷琐只有两层和三个节点的简单神经收集的练习优化问题仍然是NP-hard问题。
理论上,深度进修与机械进修中的很多相对简单的模型(例如支撑向量机和逻辑回归模型)的差别在于,这些简单模许可以数学证实地在多项式时光内完成模型优化。对于这些相对简单的模型,我们可以包管即应用运行时光比多项式时光更长的优化算法也都不克不及找到更好的模型。然则现有的深度神经收集的优化算法并不克不及供给如许的包管。在钠揭捉?练完一个深度神经收集模型之后,你并不知道这个收集模型是否是在你的当前设备下能找到的最优的一个模型。所以你会存有疑虑,如不雅持续练习模型的话是否可以获得一个更好的模型。
荣幸的是我们在实践中可以异常高效地接近这些最优结不雅:经由过程运行经典的梯度降低优化办法就可以获得足够好的局部最小值,大年夜而可以使我们在很多常见问题上取得巨大年夜进步,例如图像辨认、语音辨认和机械翻译。我们简单地忽视最优结不雅,并在时光许可的情况下尽可能多地进行梯度降低迭代。
图1 左图:一个凸函数。右图:一个非凸函数。凸函数比非凸函数更轻易找到函数曲面的底部(来源:Reza Zadeh)
似乎传统的优化理论结不雅是残暴的,但我们可以经由过程工程办法和数学技能来尽量规避这些问题,例如启发式办法、增长更多的机械和应用新的硬件(如GPU)。一些研究工作正在积极地摸索为什么理论结不雅很残暴,但这些经典的优化算法却工作得这么好。
【编辑推荐】
- 迁徙进修:数据不足时若何深度进修
- 白话AI:看懂深度进修真的那么难吗?初中数学,就用10分钟
- 深度进修中批归一化的陷阱
- AWS前次建深度进修主机(Windows版)
- TensorFlow实现基于深度进修的图像补全
推荐阅读
专访DeepMap COO罗维:自动驾驶时代,创业公司如何在高精度地图领域突围?
在DeepMap看来,要想为主动驾驶汽车供给高质量、高精度的地图和定位领导,团队须要具备多样的技巧实力,包含测绘、传感器融合、机械进修、计算机视觉、SLAM(即时定位与地图构建)、 几何>>>详细阅读
地址:http://www.17bianji.com/lsqh/35380.html
1/2 1