5、规范化
增长练习样本的数量是⼀种减轻过度拟合的办法,还有其他的⼀下⽅法可以或许减轻过度拟合的程度吗?⼀种可⾏的⽅式就是降低⽹络的范围。然⽽,⼤的⽹络拥有⼀种⽐⼩⽹络更强的潜⼒,所以这⾥存在⼀种应⽤冗余性的选项,荣幸的是,还有其他的技巧可以或许缓解过度拟合,即使我们只有⼀个固定的⽹络和固定的练习集合,这种技巧就是规范化。
本节,我会给出⼀种最为常⽤的规范化手段 —— 有时刻被称为权重衰减(weight decay)或者 L2 规范化,L2 规范化的设法主意是增长⼀个额外的项到价值函数上,这个项叫做规范化项,下⾯是规范化的交叉熵:
个中第⼀个项就是惯例的交叉熵的表达式。第⼆个如今加⼊的就是所有权重的平⽅的和,然后使⽤⼀个因⼦ λ/2n 进⾏量化调剂,个中 λ > 0 可以称为规范化参数,⽽ n 就是练习集合的⼤⼩,我们会在后⾯评论辩论 λ 的选择策略。
直觉地看,规范化的效不雅是让收集偏向于进修⼩⼀点的权重,其他的器械都⼀样的。⼤的权重只有可以或许给出价值函数第⼀项⾜够的晋升时才被许可,换⾔之,规范化可以当做⼀种寻找⼩的权重和最⼩化原始的价值函数之间的┞粉中,这两部分之前相对的重要性就由 λ 的值来控制了:λ 越⼩,就偏向于最⼩化原始价值函数,反之,偏向于⼩的权重。
如今,对于如许的┞粉中魏何可以或许减轻过度拟合还不是很清跋扈!然则,实际表示注解了这点。
为了构造这个例⼦,我们⾸先须要弄清跋假使何将随机梯度降低算法应⽤在⼀个规范化的神经收集上。
这正和平日的梯度降低进修规矩雷同,除了经由过程⼀个因⼦ 1−ηλ/n从新调剂了权重 w,这种调剂有时被称为权重衰减,因为它使得权重变⼩,粗看,如许会导致权重会赓续降低到 0,然则实际不是如许的,因为如不雅在原始价值函数中造成降低的话其他的项可能会让权重增长。
让我们看看规范化给收集带来的机能晋升吧。这⾥还会使⽤有 30 个隐蔽神经元、⼩批量数据⼤⼩为 10,进修速度为 0.5,使⽤交叉熵的神经⽹络,然⽽,此次我们会使⽤规范化参数为λ = 0.1,留意在代铝闼楝我们使⽤的变量名字为 lmbda。
然则此次测试集上的精确率在全部 400 迭蹿泼内持续增长:
我们已经看到了规范化在实践中可以或许削减过度拟合了,这是令⼈振奋的,不过,这背后的原因还不得而知!平日的说法是:⼩的权重在某种程度上,意味着更低的复杂性,也就对数据给出了⼀种更简单却更强⼤解释,是以应当优先选择,这固然很简短,不过隐蔽了⼀些可能看起来会令⼈困惑的身分。
假设神经收集⼤多半有很⼩的权重,这最可能涌如今规范化的⽹络中,更⼩的权重意味着⽹络的⾏为不会因为我们随便改变了⼀个输⼊⽽改变太⼤,这会让规范化⽹络进修局部噪声的影响加倍艰苦,将它看做是⼀种让单个的证据不会影响⽹络输出太多的⽅式。相对的,规范化⽹络进修去半数个练习集中经常出现的证据进⾏反竽暌功。对⽐看,⼤权重的⽹络可能会因为输⼊的微⼩改变⽽产⽣⽐较⼤的⾏为改变。所以⼀个⽆规范化的⽹络可以使⽤⼤的权重来进修包含练习数据中的噪声的⼤量信息的复杂模型。简⾔之,规范化⽹络受限于根据练习数据中常⻅的模式来构造相对简单的模型,⽽可以或许抵抗练习数据中的噪声的特点影响,我们的设法主意就是这可以让我们的⽹络对看到的现象进⾏真实的进修,并可以或许根据已经学到的常识更好地进⾏泛化。
所以,偏向于更简单的解释的设法主意其实会让我们认为重要。人们有时刻将这个设法主意称为“奥卡姆剃⼑原则”,然后就会热忱地将其当成某种科学道理来竽暌功⽤这个轨则。然则,这就不是⼀个⼀般的科学道理,也没有任何先验的逻辑原因来解释R单的解释就⽐更为负责的解释要好。
我们应当不时记住这⼀点,规范化的神经收集经常可以或许⽐⾮规范化的泛化能⼒更强,这只是⼀种实验事实(empirical fact)。
6、弃权
这一节你将懂得用相当激进的弃权(Dropout)防止过度拟合的技巧。
弃权(Dropout)是⼀种相当激进的技巧,和规范化不合,弃权技巧并不依附对价值函数的修改,⽽是,在弃权中,我们改变了⽹络本⾝。
假设我们测验测验练习⼀个收集:
推荐阅读
就像你看到的,这个函数返回一个 promises,将会赋值给 val,猜一下生成器和异步函数示例做了什么!无论你在这个函数返回了什么,你其实是暗地里返回一个 promise 解析到那个值。如不雅你>>>详细阅读
本文标题:理解深度学习的钥匙–参数篇
地址:http://www.17bianji.com/lsqh/34849.html
1/2 1