深度学习在自然语言处理中的应用

Vc是中间词典词向量。每个单词有两种表示向量(Uo和Uw)—— 一个用于此单词作为中间词典场景，另一个用于此单词不是中间词典场景。我们采取随机梯度降低办法练习词向量。这个过程是最令人费解的，如不雅读者对上陈述明看得云里雾里，作者还向大年夜家推荐了两篇拓展浏览文┞仿，第一篇 (https://dzone.com/articles/natural-language-processing-adit-deshpande-cs-unde) 和第二篇 (https://www.youtube.com/watch?v=D-ekE-Wlcds)。

一句话总结：在给出中间词典情况下，Word2vec的目标就是使得高低文词语的对数函数值最大年夜，优化办法平日是SGD。

门控递归单位

word2vec办法最吸引眼球的效不雅就是其可以或许发明词向量之存放在的线性关系。经由练习，词向量似乎可以捕获到不合的语法和语义概念：

真是弗成思议，如斯简单的目标函数和优化办法就可以或许捕获到这种线性关系。

我们欲望将句子中的每个单词都表示为一个向量：

轮回神经收集

(Recurrent Neural Networks)

好了，如今我们已经获得了词向量，接下去就要把它们融入到轮回神经收集模型中。RNN如今已经是NLP义务最常用的办法之一。RNN模型的优势之一就是可以有效应用之前传入收集的信息。下图就是RNN模型的简单示意图：

上图底部，输入的x是该词典词向量。每个向量x对应一个隐层的向量h。下图橙色框内的是一个输入单位：

每个单位的隐层向量是当前输入词向量和上一个隐层状况的函数，计算公式如下：

如不雅你细心不雅察，会发明公式中有两个上标不合的权重矩阵Whx和Whh，分别与输入的词向量和上一次的隐蔽状况相乘。这两个权重矩阵是收集的所有单位共享的。

这就是RNN模型的关键。细心思虑这个过程，它和传统的两层神经收集差别异常大年夜。在传统的两层神经收集中，每层的权重矩阵各不雷同(W1和W2)，而在递归算机收集中，全部序列共享同一个权重矩阵。

具体到某个单位，它的输出值y是h和Ws的乘积，即另一个权值矩阵：

我们再往返想一下RNN的长处。RNN与传统NN的最大年夜差别在于RNN输入的是一个序列(这里就是一系列单词)。像CNN模型的输入也执偾一张单一的图片，而RNN的输入既可所以一句简短的句子，也可所以一篇5个段落的文┞仿。输入序列的次序也会极大年夜影响练习效不雅。幻想情况下，隐蔽状况有望捕获以前的信息(汗青输入内容)。

(Gated Recurrent Units)

该用什么数值来表示这个向量呢?我们欲望这个向量可以或许表示词语的含义或者语义。一种办法是创建共现矩阵。假设如今有一句话：

此篇文┞仿所介绍的记忆收集独特之处在于它有一块可以读写的接洽关系记忆区域。CNN模型、强化进修以及传统的神经收集都没有这种记忆功能。也许是因为问答体系重度依附经久的高低文信息，比如要追溯事宜产生的时光线。对于CNN和强化进修而言，它们经由过程练习不合的滤波器或是状况到行动的映射关系，已经将“记忆”表如今权值矩阵中。乍一看，RNN和LSTM相符请求，然则一般也无法记忆汗青的输入内容(对于问答体系至关重要)。

我们再来介绍门控递归单位。这种门控单位的目标是为RNN模型在计算隐层状况时供给一种更复杂的办法。这种办法将使我们的模许可以或许保持更长远的信息。为什么保持经久依附是传统轮回神经收集存在的问题呢?因为在误差反向传播的过程中，梯度沿着RNN模型由近及远往回传播。如不雅初始梯度是一个很小的数值(例如 < 0.25)，那么在传播到第三个或第四个模块时，梯度将几乎消掉(多级梯度连乘)，是以较靠前的单位的隐蔽状况得不到更新。

在传统的RNN模型中，隐蔽状况向量的计算公式如下：

而GRU采取了另一种计算方法。计算过程被分为三块：更新门，重置门和一个新的记忆存储器。两个门都是输入词向量与上一步隐蔽状况的函数：

其实，关键的差别之处就在于不合的门有不合的权重矩阵，经由过程公式中的上标加以区分。更新门的符号是Wz和Uz，重置门的符号是WT和UT。

新存储器的计算公式如下：

式子中的空心点表示逐元素相乘 (https://en.wikipedia.org/wiki/Hadamard_product_%28matrices%29)。

下一步，根据特点表示I(x)更新记忆内容m，以反馈新输入内容x惹人的信息。

如不雅细心不雅察公式，大年夜家会发明如不雅重置门单位的输出值接近于0，那么整一项的值都接近于0，相当于忽视了ht-1步的状况。此时，模型只推敲当前的输入词向量xt。

h(t)的最终情势如下公式所示：

h(t)函数由三部分构成：更新门，重置门和一个记忆存储器。当zt接近于1时，新的隐蔽状况ht几乎完全依附于上一次的状况，因为(1-zt)接近0，后一项的乘积也接近于0。当zt接近于0时，情况则相反。

长短期记忆单位

如不雅大年夜家已司懂得了GRU的道理，那么就能很轻易懂得LSTM。LSTM同样也是由多个门控模块构成：

2/4 首页上一页 1 2 3 4 下一页尾页