作家
登录

深度学习在自然语言处理中的应用

作者: 来源: 2017-04-11 08:59:56 阅读 我要评论

深度进修在天然说话处理中的应用

天然说话处理是研究和实现人与计算机之间用天然说话进行有效通信的各类理论和办法。本文重要介绍深度进修在天然说话处理中的应用。

天然说话处理简介

天然说话处理是研究和实现人与计算机之间用天然说话进行有效通信的各类理论和办法。具体的义务包含:

  • 问答体系(如Siri、Alexa和Cortana的功能)
  • 情感分析(断定某个句子表达的是正面照样负面情感)
  • 图像-文字映射(看图写话)
  • 机械翻译(说话之间互相翻译)
  • 语音辨认
  • 句子成分分析
  • 定名实体辨认

传统的NLP办法须要借助大年夜量说话学的范畴常识。懂得音素和词素等术语是根本功,有专门的说话培训课程。我们先来看看传统的NLP办法是若何懂得下面这个词语:

我们知道前缀”un”表示相反或是不和意思,后缀”ed”注解了词典时态(以前式)。再经由过程辨认词干”interest”的意思,我们就很轻易推导出这个单词典含义和情感偏向了。似乎很简单对吧?然则,当真正去梳理英语里的所有前缀和后缀时,你会发明所有前缀和后缀组合很多很多,只有异常资深的说话学家才能懂得它们的含义。

深度进修的介入

深度进修本质上照样一种表示进修的办法。例如,CNN模型就是用一系列滤波器的组合来将对象划分到不合类别。是以,作者认为我们也可以借用同样的办法来表示单词。

本文概述

作者按照构建深度神经收集模型的根本次序来撰写本文,然后结合近期的研究论文来评论辩论一些实际应用。也许,部分读者在读完全文之后还存在为啥要用RNN模型,或者为啥LSTM收集话苄效等等问题。然则,作者的初志是欲望大年夜家对深度进修在天然说话处理范畴的应用能有一个感性的熟悉。

词向量

既然深度进修办法爱好用数学符号,那我们就把每个单词表示为一个d维的向量。假设 d=6。

共现矩阵的每个元素表示一个词与另一个词在整篇文档中相邻出现的次数。具体来说如下图所示:

这种非线性分列的念头源自天然说话所具有的属性,即词语序列构成短语。而词语的分列次序不合,构成的短语含义也不雷同,甚至与单个词语的含义完全相反。为了表现这一特点,LSTM单位构成的收集必须呈树状构造分列,不合的单位受其子节点的影响。

我们可以将共现矩阵的每一行当做词向量的初始值:

读者们请留意,仅仅不雅察这个简单的矩阵,我们就可以或许获取很多有效的信息。例如,“love”和“like”两个单词与名词性的单词共现次数都是1(NLP和dogs),并且它们都与单词“I”共现一次。这就意味着这两个单词很有可能属于动词。若我们手中的数据集足够大年夜,大年夜家可以想象“like”与“love”的类似度会越来越高,同理其它近义词典词向量也会越来越类似,因为它们老是在邻近的高低文中出现。

尽管我们找到了一个好的入手点,然则须要留意到这种向量表示方法的维度会跟着语料集的增长而呈线性增长。假如我们有一百万个单词(在NLP问题中并不算太多),就会获得一个 1000,000 x 1000,000 的矩阵,并且这个矩阵异常的稀少。大年夜存储效力来说,这显然不是一种好的表示办法。今朝已经有很多不错的词向量表示办法了,个中最有名的就是word2vec。

Word2Vec

词向量办法的根本思惟就是让向量尽可能完全地表示该词所包含的信息,同时让向量维度保持在一个可控典范围之内(合适的维度是25~1000维之间)。

Word2vec的思惟是猜测某个中间词邻近其它词语出现的概率。照样以之前的句子“I love NLP and I like dogs.”为例。我们起首不雅察该句子的前三个单词。是以窗口的宽度就是 m=3:

接着,我们的目标就是根据中间词“love”,猜测它阁下可能出现的词。怎么实现呢?当然先要定一个优化目标函数。假设肯定了一个中间词,我们定的┞封个函数要使得四周词语出现的对数概率值最大年夜:

这个函数很重要,作者强调必定要卖力懂得。照样以“love”作为中间词为例,目标函数的含义就是累加左侧“I”,“love”和右侧“NLP”,“love”四个单词典对数概率值。变量T表示练习语句的数量。下面的式子是对数函数的公式:

 1/4    1 2 3 4 下一页 尾页

  推荐阅读

  Async/Await替代Promise的6个理由

译者按: Node.js的异步编程方法有效进步了应用机能;然而回调地狱却让人望而却步,Promise让我们拜别回调函数,写出更优雅的异步代码;在实践过程中,却发明Promise并不完美;技巧进步是无尽>>>详细阅读


本文标题:深度学习在自然语言处理中的应用

地址:http://www.17bianji.com/lsqh/34697.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)