作家
登录

迁移学习:数据不足时如何深度学习

作者: 来源: 2017-05-18 08:56:04 阅读 我要评论

应用深度进修技巧解决问题的过程中,最常见的┞废碍在于练习模型过程中所需的海量数据。须要如斯多的数据,原因在于机械在进修的过程中会在模型中碰到大年夜量参数。在面对某一范畴的具体问题时,平日可能无法获得构建模型所需范围的数据。然而在一个模型练习义务中针对某种类型数据获得的关系也可以轻松地应用于同一范畴的不合问题,这就是所谓的迁徙进修。

我认为实现人工智能的难度无异于建造火箭。须要有一个强大年夜的引擎,还有大年夜量的燃料。如不雅空有强大年夜的引擎但缺乏燃料,火箭肯定是无法上天的。如不雅只有一个薄弱的引擎,有再多燃料也无法起飞。如不雅要造火箭,强大年夜的引擎和大年夜量燃料是必弗成少的。以词攀来类比深度进修的话,深度进修引擎可以看作火箭引擎,而我们为算法供给的海量数据可以看作是燃料。             — Andrew Ng

例如这些模型中常见的参数数量范围包含:

深度进修

神经收集(即深度进修)是一种分层式构造,但又狂暴叠在一路(就像乐高积木)。

深度进修技巧其实就是一种大年夜范围神经收集,我们可以将这种收集看作一种流程图,数据大年夜一端进入,互相引用/懂得后大年夜另一端输出。我们还可以精力经收集拆分成多个部分,大年夜任何一部分中获得本身须要的推理结不雅。也许无法获得有意义的结不雅,但依然可以如许做,例如Google DeepDream就是如许做的。

范围(模型) ∝ 范围(数据) ∝ 复杂度(问题)

在模型的范围和所需数据量的范围之存放在一种有趣的近似于线性的关系。根本推论在于,对于特定的问题(例如类其余数量),模型必须足够大年夜,以便获得数据之间的关系(例如图片中的材质和外形,文本中的语法,以及语音中的音素)。模型中的前序层可以辨认所输入内容中不合构成之间的高等别关系(例如边沿和模式),后续层可以辨认有助于最终做决定计划所需的信息,这些信息平日有助于区分不合的结不雅。是以如不雅问题的复杂度较高(例如图像分类),所需的参数数量和数据量就会异常大年夜。

AlexNet在每个环节“看到”的内容

迁徙进修来了!

在面对某一范畴的具体问题时,平日可能无法获得构建模型所需范围的数据。然而在一个模型练习义务中针对某种类型数据获得的关系也可以轻松地应用于同一范畴的不合问题。这种技巧也叫做迁徙进修(Transfer Learning)。

Qiang Yang、Sinno Jialin Pan,“A Survey alt="" />

谷歌搜刮中,机械进修、深度进修,以及迁徙进修三个关键字的搜刮趋势变更

根据Awesome — Most Cited Deep Learning Papers所颁布的深度进修范畴最重要的论文统计,跨越50%的论文应用了某种情势的迁徙进修或预练习。对于资本(数据和计算才能)有限的人,迁徙进修技巧的重要性一日千里,然而章一ㄅ念尚未获得应有程度的社会影响。最须要这种技巧的人甚至至今都不知道这种技巧的存在。

比来深度进修技巧忽然开端大年夜肆风行,并在说话翻译、玩策略游戏,以及无人驾驶汽车等涉及到数百万数据量的范畴取得了能干标结不雅。应用深度进修技巧解决问题的过程中,最常见的┞废碍在于练习模型过程中所需的海量数据。须要如斯多的数据,原因在于机械在进修的过程中会在模型中碰到大年夜量参数。

如不雅深度进修是圣杯,数据是守门人,那么迁徙进修就是大年夜门钥匙。

借助迁徙进修技巧,我们可以直接应用预练习过的模型,这种模型已经经由过程大年夜量轻易获得的数据集进行过练习(固然是针对完全不合的义务进行练习的,但输入的内容完全雷同,只不过输出的结不雅不合)。随后大年夜中找出输出结不雅可重用的层。我们可以应用这些层的输出结不雅充当输入,进而练习出一个所需参数的数量更少,范围也更小的收集。这个小范围收集只须要懂得特定问题的内部关系,同时已经经由过程预培训模型进修过数据中蕴含的模式。经由过程这种方法,即可将经由练习检测猫咪的模型从新用于再现梵高的画作。

迁徙进修技巧的另一个重大年夜收益在于可以对模型进行完美的“通用化”。大年夜型模型往往会与数据过度拟合(Overfit),例如建模所用数据量远远跨越隐含的现象数量,在处理不曾见过的数据时效不雅可能不如测试时那么好。因为迁徙进修可以让模型看到不合类型的数据,是以可以习得更出色的底层规矩。

过度拟合,更像是进修过程中的逝世记硬背。 — James Faghmous

迁徙进修可减小数据量

假假想要终结裙子到底是蓝黑色照样白金色的┞幅议,起首须要收集大年夜量已获证实是蓝黑色和白金色的裙子图片。如不雅要应用类似上文提到的方法(包含1.4亿个参数!)自行构建一个精确的模型并对其进行练习,至少须要预备120万张图片,这根本上是无法实现的。这时刻可以尝尝迁徙进修。

如不雅应用迁徙进修技巧,练习所需的参数数量计算方法如下:

参数的数量 = [范围(输入) + 1] * [范围(输出) + 1]= [2048+1]*[1+1]~ 4098 个参数

所需参数数量由1.4*10⁸个削减至4*10⊃3;个,降低了五个数量级!只要收集不到100个图片就够了。松了口气!

如不雅实袈溱没耐烦持续浏览,欲望急速知道裙子的色彩,可以直接跳至本文末尾看看若何自行构建一个如许的模型。


  推荐阅读

  默认启用多进程的Firefox到底有多吃内存?

Firefox 说要默认启用多过程(内部称为 e10s-multi 项目)似乎已经说了良久。据 Firefox 的开辟人员 Eric Rahm 称,该架构筹划于下一? 54 版本启用,届时最多可以应用四个过程来治理 Web >>>详细阅读


本文标题:迁移学习:数据不足时如何深度学习

地址:http://www.17bianji.com/lsqh/35283.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)