一、什么是天然说话处理
大年夜研究内容来看,天然说话处理包含语法分析、语义分析、篇章懂得等。大年夜应用角度来看,天然说话处理具有广泛的应用前景。特别是在信息时代,天然说话处理的应用搜罗万象,例如:机械翻译、手写体和印刷体字符辨认、语音辨认及文语转换、信息检索、信息采取与过滤、文本分类与聚类、舆情分析和不雅点发掘等,它涉及与说话处理相干的数据发掘、机械进修、常识获取、常识工程、人工智能研究和与说话计算相干的说话学研究等。
值得一提的是,天然说话处理的鼓起与机械翻译这一具体义务有着密切接洽。机械翻译指的是应用计算机主动地将一种天然说话翻译为别的一种天然说话。例如主动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”,或者反过来将“我爱北京天安门”翻译为“I like Beijing Tiananmen Square”。因为人工进行翻译须要练习有素的双语专家,翻译工作异常耗时耗力。更不消说须要翻译一些专业范畴文献时,还须要翻译者懂得该范畴的根本常识。世界上有跨越几千种说话,而仅结合国的工作说话就有六种之多。如不雅可以或许经由过程机械翻译精确地进行说话间的翻译,将大年夜大年夜进步仁攀类沟通和懂得的效力。
《圣经》里有一个故事说巴比伦人想建造一座塔纵贯天堂。建塔的人都说着同一种说话,心意相通、齐心合力。上帝看到仁攀类竟然敢做这种工作,就让他们的说话变得不一样。因为人们听不懂对方在讲什么,于是大年夜家成天吵吵闹闹,无法持续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“不合”。固然巴别塔停建了,但一个妄图却始终缭绕在人们心中良士类什么时刻才能拥有相通的说话,重建巴别塔呢?机械翻译被视为“重建巴别塔”的巨大年夜创举。假如可以或许实现不合说话之间的机械翻译,我们就可以懂得世界上任何人说的话,与他们进行交换和沟通,再也不必为互相不克不及懂得而困扰。
事实上,“人工智能”被作为一个研究问题正式提出来的时刻,开创人把计算机国际象议和机械翻译作为两个标记性的义务,认为只要国际象棋体系可以或许打败仁攀类世界冠军,机械翻译体系达到仁攀类翻译程度,就可以宣布人工智能的成功。四十年后的1997年,IBM公司的深蓝超等计算机已经可以或许打败国际象棋世界冠军卡斯帕罗夫。而机械翻译到如今仍无法与仁攀类翻译程度比拟,大年夜此可以看出天然说话处理有多么艰苦!
简单地说,天然说话处理(Natural Language Processing,简称NLP)就是用计算机来处理、懂得以及应用仁攀类说话(如中文、英文等),它属于人工智能的一个分支,是计算机科学与说话学的交叉学科,又常被称为计算说话学。因为天然说话是仁攀类差别于其他动物的根本标记。没有说话,仁攀类的思维也就无大年夜谈起,所以天然说话处理表现了人工智能的最高义务与境界,也就是说,只有当计算机具备了处理天然说话的才能时,机械才算实现了真正的智能。
今朝,人们重要经由过程两种思路来进行天然说话处理,一种是基于规矩的理性主义,别的一种是基于统计的经验主义。理性主义办法认为,仁攀类说话主如果由说话规矩来产生和描述的,是以只要可以或许用恰当的情势将仁攀类说话规矩表示出来,就可以或许懂得仁攀类说话,并实现说话之间的翻译等各类天然说话处理义务。而经验主义方轨则认为,大年夜说话数据中获取说话统计常识,有效建立说话的统计模型。是以只要可以或许有足够多的用于统计的说话数据,就可以或许懂得仁攀类说话。然而,当面对实际世界充斥模糊与不肯定性时,这两种办法都面对着各自无法解决的问题。例如,仁攀类说话固然有必定的规矩,然则在真实应用中往往伴随大年夜量的噪音和不规范性。理性主义办法的一大年夜弱点就是鲁棒性差,只要与规矩稍有偏离便无法处理。而对于经验主义办法而言,又不克不及无穷地获取说话数据进行统计进修,是以也不克不及够完美地舆解仁攀类说话。二十世纪八十年代以来的趋势就是,基于说话规矩的理性主义方法赓续受到质疑,大年夜范围说话数据处理成为今朝和将来一段时代内天然说话处理的重要研究目标。统计进修办法越来越受到看重,天然说话处理中越来越多地应用机械主动进修的办法来获取说话常识。
天然说话处理鼓起于美国。第二次世界大年夜战之后,二十世纪五十年代,当电子计算机还在襁褓之中时,应用计算机处理仁攀类说话的设法主意就已经出现。当时,美国欲望可以或许应用计算机将大年夜量俄语材料主动翻译成英语,以窥测苏联科技的最新成长。研究者大年夜破译军事暗码中获得启发,认为不合的说话只不过是对“同一语义”的不合编码罢了,大年夜而想当然地认为可以采取译码技巧像破译暗码一样“破译”这些说话。
1954年1月7日,美国乔治敦大年夜学和IBM公司合作实验成功地将跨越60句俄语主动翻译成英语。固然当时的┞封个机械翻译体系异常简单,仅仅包含6个语律例则和250个词,但因为媒体的广泛报道,纷纷认为这是一个巨大年夜的进步,导致美国当局备受鼓舞,加大年夜了对天然说话处理研究的投资。实验完成者也当即自负地撰文称,在三到喂恼飘内就可以或许完全解决大年夜一种说话到另一种说话的主动翻译问题。他们认为只要制订好各类翻译规矩,经由过程大年夜量规矩的堆砌就可以或许完美地实现说话间的主动翻译。
天然说话处理的艰苦可以列举出来很多,不过关键在于清除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而精确的消歧须要大年夜量的常识,包含说话学常识(如词法、句法、语义、高低文等)和世界常识(与说话无关)。这带来天然说话处理的两个重要艰苦。
然而,事实是懂得仁攀类说话远比破译暗码要复杂得多,是以研究进展异常迟缓。1966年的一份研究申报总结发明,经由十年之久的研究,结不雅远远未能达到预期,是以支撑资金急剧降低,使天然说话处理(特别是机械翻译)的研究陷入长达二十年的低潮。直到二十世纪八十年代,跟着电子计算机的计算才能的飞速进步和制造成本的大年夜幅降低,研究者又开端从新存眷天然说话处理这个极富挑衅的研究范畴。三十年白云苍狗,此时研究者已经熟悉到简单的说话规矩的堆砌无法实现对仁攀类说话的┞锋正懂得。研究发明,经由过程对大年夜量的文本数据的主动进修和统计,可以或许更好地解决天然说话处理问题,如说话的主动翻译。这一思惟被称为天然说话处理的统计进修模型,至今旭日东升。
推荐阅读
关于HTTPS和HTTP的差别,以及HTTPS的优势、HTTPS和SSL之间的关系等,本文不做任何评论辩论,感兴趣的可以自行>>>详细阅读
本文标题:外行也能看懂的科普:这就叫自然语言处理
地址:http://www.17bianji.com/lsqh/38397.html
1/2 1