作家
登录

超越Softmax瓶颈:一种高秩RNN语言模型

作者: 来源: 2017-11-16 09:02:39 阅读 我要评论

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践

超出Softmax瓶颈:一种高秩RNN说话模型在因式分化(factorization)的基本上,基于轮回神经收集(RNN)的说话模型在多项基准上都达到了当缁ゎ佳的程度。尽管 RNN 作为通用近似器有出色的表达才能,但点积和 Softmax 的组合是否有才能建模前提概率(会随语境的变更而产生巨大年夜的变更),这个问题还没有获得清跋扈的解答。 在这项工作中,我们大年夜矩阵分化的角度研究了前面提到的基于 Softmax 的轮回说话模型的表达才能。我们注解应用标准公式进修基于 Softmax 的轮回说话模型等价于求解矩阵分化问题。更重要的是,因为天然说话高度依附于语境,所以被分化的矩阵可能是高秩的(high-rank)。这进一步注解带有分布式(输出)词嵌入的基于标准 Softmax 的说话模型没有足够的才能建模天然说话。我们称之为 Softmax 瓶颈(Softmax bottleneck)。 我们提出了一种解决 Softmax 瓶颈的简单且有效的办法。具体而言,我们将离散隐变量(discrete latent variable)惹人了轮回说话模型,并且将 next-token 概率分布情势化为了 Mixture of Softmaxes(MoS)。Mixture of Softmaxes 比 Softmax 和以前的研究推敲的其它替代办法有更好的表达才能。此外,我们注解 MoS 可以进修有更大年夜的归一化奇怪值(normalized singular values)的矩阵,是以比 Softmax 和基于真实世界数据集的其它基准有高得多的秩。 我们有两大年夜供献。起首,我们经由过程将说话建模情势化为矩阵分化问题而肯定了 Softmax 瓶颈的存在。第二,我们提出了一种简单且有效的办法,可以在当缁ゎ佳的结不雅上实现明显的晋升。

 表 2:在 WikiText-2 上的单个模型困惑度。基准结不雅是大年夜 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示应用了动态评估。 为了进一步验证膳绫擎所给出的改良确实袈浯自 MoS 构造,而不是因为增长了额外的隐蔽层或找到了一组特定的超参数,我们在 PTB 和 WT2 上履行了 ablation study(是指移除模型和算法的某些功能或构造,看它们对该模型和算法的结不雅有何影响)。
 论文地址:https://arxiv.org/pdf/1711.03953.pdf 摘要:我们将说话建模情势化了矩阵分化问题,并且注解基于 Softmax 的模型(包含大年夜多半神经说话模型)的表达才能受限于 Softmax 瓶颈。鉴于天然说话高度依附于语境,这就进一步注解应用分布式词嵌入的 Softmax 实际膳绫腔有足够的才能来建模天然说话。我们提出了一种解决这一问题的简单且有效的办法,并且在 Penn Treebank 和 WikiText-2 上分别将当缁ゎ佳的困惑度程度改良到了 47.69 和 40.68。 在 PTB 和 WT2 上的说话建模结不雅分别在表 1 和表 2 中给出。在参数数量差不多的情况下,MoS 的表示超出了所有应用了或没应用动态评估(dynamic evaluation)的基准,并且在当缁ゎ佳的基本上实现了明显的晋升(困惑度改良了高达 3.6)。 

 表 1:在 Penn Treebank 的验证集和测试集上的单个模型困惑度。基准结不雅是大年夜 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示应用了动态评估。 

 表 3:在 Switchboard 上的评估分数。  表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,没有应用微调或动态评估。 我们绘制了归一化的奇怪值的累积百分比,即归一化的奇怪值低于某个阈值的百分比。 

 图 1:给定 [0,1] 中的一个值,归一化奇怪值的累积百分比。 

【编辑推荐】

  1. 用深度进修来解析梦境中出现的物体
  2. 23个热点深度进修库的排名
  3. 深度进修在单图像超分辨率上的应用:SRCNN、Perceptual loss、SRResNet
  4. 深度进修|用最懂法度榜样员的方法快速入门TensorFlow
  5. 深度进修高手该如何炼成?这位阿里天池大年夜赛冠军为你筹划了一份专业成长路径
【义务编辑:庞桂玉 TEL:(010)68476606】

  推荐阅读

  三星电子中国研究院院长:不要急功近利 不要透支AI

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 [针对中国人工智能的成长,张代君提出“不要急功近利,笔迹巧、做家当都是循序渐进、水到渠成的,不>>>详细阅读


本文标题:超越Softmax瓶颈:一种高秩RNN语言模型

地址:http://www.17bianji.com/lsqh/38905.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)