作家
登录

从浅层模型到深度模型:概览机器学习优化算法

作者: 来源: 2017-07-11 14:03:09 阅读 我要评论

有趣的是,这些办法没有计算出显式二阶导数,而是经由过程在每次迭代中应用低秩更新构造完全由一阶导数的海塞近似矩阵。例如,让我们扼要介绍最风行的拟牛顿算法,全称为 Broyden-Fletcher-Goldfarb-Shanno(BFGS)办法。在这种办法中,我们起首可以看到(21)的最小值为、进一步发明它实际上可以便利地计算出逆 Hessian 近似。因为跟着步长 sk = w_k+1 − wk 和位移 yk = ∇F(wk+1) − ∇F(wk) 的移动,有人选择以最小化以知足割线方程 sk = (B^-1)yk。应用精心遴选的规范表达,这个问题的解析式可以显示的写成

个中之间的差别可以仅表示为二阶矩阵。

为便利引用,完全的经典 BFGS 算法被称为算法 3。

即使采取二阶信息,随机优化办法(无差别削减)也无法达到比次线性更快的收敛速度。不过,应用二阶信息是一个不错的设法主意,因为如不雅海塞近似矩阵收敛于海塞矩阵的┞锋实解,则可以削减收敛速度中的常数,同时还可以削减病态(ill-conditioning)的影响。

不幸的是,尽管已经不雅察到了实际的效力晋升,但在理论上还没有一个真正的二阶办法,可以实现如许的晋升。到今朝为止,只要海塞(近似)矩阵保持优胜特点,大年夜多半实际的办法只能包管实现 SGD 的收敛(速度)特点。例如,如不雅序列 {Bk}(不必定由 BFGS 更新生成)对所有 k 知足:

此时具有与 SGD 雷同的收敛速度属性。我们就 可以合理地假设这些限制实用于上述评论辩论的办法,这些假设有恰当的保障。然而,在拟牛顿办法的背景下应当当心,个中随机梯度估计可能与海塞近似相干。

3 深度进修

沿着这些偏向进行的重要进展包含深层神经收集(DNN)的应用。机械进修的一个响应的分支称为深度进修(或分财揭捉?习),它代表了一类试图经由过程应用包含持续线性和非线性变换的多层次深层图来构造数据中高层次抽象的算法 [6, 51, 73, 37, 38, 23]。近年来科学家们已经研究了各类神经收集类型,包含全连接神经收集(FNN)[84,28],卷积神经收集(CNN)[50] 和轮回神经收集(RNN)[41,57,52]。对于我们来说,将重要存眷前两类神经收集,同时留心其它收集。

3.1 问题公式化
3.2 随机梯度降低法

我们引用以下内容来强调将优化算法应用于练习 DNN 的令仁攀困惑的反竽暌功。起首,例如在 [11] 中,有一个结论注解,经由过程应用 SGD 来最小化非凸目标函数(一向大年夜输入×输出空间绘制),可以包管预期梯度风险将消掉,至少在一个子序列上是如许,即:。这一结论令人欣慰,这注解 SGD 可以实现与其他最先辈的基于梯度的优化算法类似的收敛包管。然而,尽管文献中的各种包管是有局限性的; 毕竟,尽管很多基于梯度的优化算法确保目标函数单调削减,但 SG 并不以这种方法计算。是以,如不雅一个子序列收敛到一个固定点,那么我们怎么能肯定该点不是鞍点,或者是有误差局部最小值,亦或是一些目标值比初始点差的最大年夜值?事实上,我们并不克不及肯定。也就是说,SGD 办法平日善于找到局部极小值,而不是全局最小值。另一方面,SGD 往往会在固定值邻近减缓收敛速度,这可能会阻碍它在深度神经收集中成长。

中的进修界线是没有效的,因为对于很多 DNN 和 CNN,由神经收集产生的分类的复杂度 C 比练习样本数 n 大年夜得多。事实上,在 [90] 中,经验注解,只有这些集合中的数据随机扰动,神经收集才能随便马虎地跨越典范的数据集类型。

3.3 海塞-自由优化办法(Hessian-free method)

有研究者发明我们可以修改 DNN 的反向传播算法来计算如许的海塞-矢量乘积,因为它们可以被看作是偏领导数 [65]。计算这种乘积的复杂度只是比计算梯度多一个常数因子。所获得的类的办法平日被称为海塞-自由优化办法,因为当拜访和应用 Hessian 信息时,没有显式地存储 Hessian 矩阵。

因为目标函数的非凸性,在 DNN 的情况中出现了其它的问题,真正的海塞矩阵可能不是正定矩阵。一般来说,在肯定性优化中,处理这个问题的两种可能的办法是修改海森矩阵和应用置信域(trust region)办法。这两种办法都在练习 DNN 的情况中商量过,例如,在 [54,55] 中,提出了一种高斯牛顿法,其在(11)中函数 F 的 Hessian 的公式中的第一项近似于 Hessian 矩阵(省略了正则化项)

随机梯度法因为其用于最小化随机目标函数而在运筹学范畴广为人知,同时也是 ML 社区中的一种特点优化算法。该算法最初由 Robbins 和 Monro [ 67 ] 在解决随机方程组问题时提出,值得留意的是,它可以用于最小化具有优胜收敛性的随机目标,并且每次迭代的计算复杂度仅为 O(d)而不是 O(nd)(梯度降低中的计算复杂度)。


  推荐阅读

  【WOTI】英语流利说林晖:AI在教育领域尚处初级阶段

【讲师简介】AI在教导范畴的应用还处于初级阶段【51CTO.com原创稿件】由51CTO主办的WOTI2017全球立异技巧峰会将于2017年7月21日拉开帷幕。本次峰会将环绕机械进修、人机交互和智+应用三个>>>详细阅读


本文标题:从浅层模型到深度模型:概览机器学习优化算法

地址:http://www.17bianji.com/lsqh/36147.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)