数据有限时怎样调优深度学习模型

深度进修中有几种较为常用的改良过拟合办法：

1. data augmentation

data augmentation即数据加强，数据加强其实是增长练习样本的一种办法。以人脸辨认为例，对于人脸识其余数据加强，一般有随机裁剪，随机加光照，随机阁下翻转等。

3. 轻易知足个性化需求

经由过程类似的手段，无论是图像处理，照样语音或者天然说话处理，我们都能有效地增长样本数量。更多的练习样本意味着模许可以或许学到更多的本质特点，具有对于噪声更好的鲁棒性，大年夜而具有更好的泛化机能，可以或许有效地避免过拟合。

2. early stopping

early stopping，顾名思义，就是在练习次数没有达到预先设定的最大年夜练习次数时，我们就让收集停止练习。采取early stopping须要我们在练习集合上划搀扶一小部分(大年夜概10%~30%吧)作为验证集，验证集不介入练习，可以视为是我们知道结不雅的测试集。我们经由过程及时｀控模型在验证集上的表示来(及时｀控并不料味着每次迭代都去监控，可以每1000次去不雅察一次)，一旦模型在验证集上的表示出现降低趋势，我们就停止练习，因为再练习下去模型的泛化机能只会更差。

而实际练习中，我们弗成能一向坐在电脑旁不雅察验证集的精确率，更一般的做法是每隔一段时光(比如每1000次迭代)就保存一次模型，然后选择在验证集上效不雅最好的模型作为最终的模型。

3. 增长Dropout层

增长Dropout层

Dropout(https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf )道理异常简单，Dropout t的感化对象是layer，对于某一层中的每个节点，Dropout技巧使得该节点以必定的概率p不介入到练习的过程中(即前向传导时不介入计算，bp计算时不介入梯度更新)。

如上图所示，实验证清楚明了，Dropout的效不雅异常爆炸，对于模型练习有异常好的效不雅。

loss函数那些事儿

一个原因是经由过程Dropout，节点之间的耦合度降低了，节点对于其他节点不再那么敏感了，如许就可以促使模型学到加倍鲁棒的特点;

第二个是Dropout 层中的每个节点都没有获得充分的练习(因为它们只有一半的出勤率)，如许就避免了对于练习样本的过分进修;

第三个原因是在测试阶段，Dropout 层的所有节点都用上了，如许就起到了ensemble的感化，ensemble可以或许有效地克服模型的过拟合。

在实际的模型练习中，ropout在一般的框架中初始默认的0.5概率的丢弃率是保守的选择，如不雅模型不是很复杂，设置为0.2就够了。

不过也要留意到Dropout的缺点：

(1)Dropout是一个正则化技巧,它削减了模型的有效容量。为了抵消这种影响,我们必须增大年夜模型范围。不出不测的话,应用Dropout时最佳验证集的误差会低很多,但这是以更大年夜的模型和更多练习算法的迭代次数为价值换来的。对于异常大年夜的数据集,正则化带来的泛化误差削减得很小。

在这些情况下,应用Dropout和更大年夜模型的计算价值可能跨越正则化带来的好处。

(2)只有极少的练习样本可用时,Dropout不会很有效。

传统的随机梯度降低算法固然实用很广，但并不高效，比来出现很多更灵活的优化算法，例如Adagrad、RMSProp等，可在迭代优化的过程中自适应的调节进修速度等超参数，效不雅更佳。

第四种常用的办法就是weight decay,weight decay经由过程L1 norm和L2 norm强迫地让模型进修到比较小的权值。