作家
登录

外行也能看懂的科普:这就叫自然语言处理

作者: 来源: 2017-11-02 13:25:38 阅读 我要评论

那么,天然说话处理到底存在哪些重要艰苦或挑衅,吸引那么多研究者几十年如一日孜孜不倦地摸索解决之道呢?

二、天然说话处理的重要艰苦

起首,说话中充斥了大年夜量的歧义,这重要表如今词法、句法及语义三个层次上。歧义的产生是因为天然说话所描述的对象――仁攀类晃荡异常复杂,而说话的词汇和句律例则又是有限的,这就造成同一种说话情势可能具有多种含义。

例如单词定界问题是属于词法层面的消歧义务。在白话中,词与词之间平日是连贯说出来的。在书面语中,中文等说话也没有词与词之间的界线。因为单词是承载语义的最小单位,要解决天然说话处理,单词典界线界定问题首当其冲。特别是中文文本平日由持续的字序列构成,词与词之间缺乏天然的分隔符,因个中文信息处理比英文等西方说话多一步工序,即肯定词典界线,我们称为“中文主动分词”义务。通俗的说就是要由计算机在词与词之间主动加上分隔符,大年夜而将中文文本切分为自力的单词。例如一个句子“今天气象晴朗”的带有分隔符的切分文本是“今天|气象|晴朗”。中文主动分词处于中文天然说话处理的底层,是公认的中文信息处理的第一道工序,扮演侧重要的角色,重要存在新词发明和歧义切分等问题。我们留意到:精确的单词切分取决于对文本语义的┞俘确懂得,而单词切分又是懂得说话的最初的一道工序。如许的一个“鸡生蛋、蛋生鸡”的问题天然成了(中文)天然说话处理的第一条拦路虎。

其他级其余说话单位也存在着各类歧义问题。例如在短语级别上,“进口彩电”可以懂得为动宾关系(大年夜国外进口了一批彩电),也可以懂得为偏正关系(大年夜国外进口的彩电)。又如在句子级别上,“做手术的是她的父亲”可以懂得为她父亲生病了须要做手术,也可以懂得为她父密切大夫,帮别人做手术。总之,同样一个单词、短语或者句子有多种可能的懂得,表示多种可能的语义。如不雅不克不及解决好各级说话单位的歧义问题,我们就无法精确懂得说话要表达的意思。

别的一个方面,清除歧义所须要的常识在获取、表达以及应用上存在艰苦。因为说话处理的复杂性,合适的说话处理办法和模型难以设计。

例如高低文常识的获取问题。在试图懂得一句话的时刻,即使不存在歧义问题,我们也往往须要推敲高低文的影响。所谓的“高低文”指的是当前所嗣魅这句话所处的说话情况,例如措辞人所处的情况,或者是这句话的前几句话或者后几句话,等等。假如当前这句话中存在指代词典时刻,我们须要经由过程这句话前面的句子来揣摸这个指代词是指的什么。我们以“小明欺负小亮,是以我批驳了他”为例。在个中的第二句话中的“他”是指代“小明”照样“小亮”呢?要精确懂得这句话,我们就要懂得上句话“小明欺负小亮”意味着“小明”做得纰谬,是以第二句中的“他”应当指代的是“小明”。因为高低文对于当前句子的暗示情势是多种多样的,是以若何推敲高低文影响问题是天然说话处理中的重要艰苦之一。

再如背景常识问题。 精确懂得仁攀类说话还要有足够的背景常识。举一个简单的例子,在机械翻译研究的初期,人们经常举一个例子来解释机械翻译义务的艰苦性。在英语中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”。然则当时的某个机械翻译体系将这句英文翻译到俄语,然后再翻译回英语的时刻,却变成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是浓的,但肉却腐烂了”。大年夜字面意义上看,“spirit”(烈性酒)与“Voltka”(伏特加)对译似无问题,而“flesh”和“meat”也都有肉的意思。那么这两句话在意义上为什么会背道而驰呢?关键的问题就在于在翻译的过程中,机械翻译体系对于英语成语并无懂得,仅仅是大年夜字面长进行翻译,结不雅天然掉之毫厘,差之千里。

大年夜膳绫擎的两个方面的重要艰苦,我们看到天然说话处理这个难题的根源就是仁攀类说话的复杂性和说话描述的外部世界的复杂性。仁攀类说话承担着仁攀类表达情感、交换思惟、传播常识等重要功能,是以须要具备强大年夜的灵活性和表达才能,而懂得说话所须要的常识又是无尽头的。那么今朝人们是若何测验测验进行天然说话处理的呢?

三、天然说话处理的成长趋势

迈进二十一世纪,我们已经进入了以互联网为重要标记的海量信息时代,这些海量信息大年夜部分是以天然说话表示的。一方面,海量信息也为计算机进修仁攀类说话供给了更多的“素材”,另一方面,这也为天然说话处理供给了加倍宽广的应用舞台。例如,作为天然说话处理的重要应用,搜刮引擎逐渐成为人们获守信息的重要对象,出现出以百度、谷歌等为代表的搜刮引擎巨擘;机械翻译也大年夜实验室走入平常庶平易近家,谷歌、百度等公司都供给了基于海量收集数据的机械翻译和帮助翻译对象;基于天然说话处理的中文(输入法如搜狗、微软、谷歌等输入法)成为计算机用户的必备对象;带有语音识其余计算机和手机也正大年夜行其道,协助用户更有效地工作进修。总之,跟着互联网的普及和海量信息的出现,天然说话处理正在人们的日常生活中扮演着越来越重要的感化。

然而,我们同时面对着一个严格事实,那就是若何有效应用海量信息已成为制约信息技巧成长的一个全局性瓶颈问题。天然说话处理无可避免地成为信息科学技巧中经久成长的一个新的┞方略制高点。同时,人们逐渐意识到,纯真依附统计办法已经无法快速有效地大年夜海量数据中进修说话常识,只有同时充分发挥基于规矩的理性主义办法和基于统计的经验主义办法的各自优势,两者互相弥补,才能够更好、更快地进行天然说话处理。

天然说话处理作为一个年纪尚不足一个世纪的新兴学科,正在进行着突飞大进的成长。回想天然说话处理的成长过程,并不是一帆风顺,有过低谷,也有过高潮。而如今我们正面对着新的挑衅和机会。例如,今朝收集搜刮引擎根本上还逗留在关键词匹配,缺乏深层次的天然说话处理和懂得。语音辨认、文字辨认、问答体系、机械翻译等今朝也只能达到很根本的程度。路漫漫其修远兮,天然说话处理作为一个高度交叉的新兴学科,不论是商量天然本质照样付治实际应用,在将来必定会有令人等待的惊喜和异常快速的成长。


  推荐阅读

  教你把HTTP网站免费转成HTTPS网站

关于HTTPS和HTTP的差别,以及HTTPS的优势、HTTPS和SSL之间的关系等,本文不做任何评论辩论,感兴趣的可以自行>>>详细阅读


本文标题:外行也能看懂的科普:这就叫自然语言处理

地址:http://www.17bianji.com/lsqh/38397.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)