作家
登录

AI能够自学翻译地球上的任何语言了

作者: 来源: 2017-12-05 10:46:07 阅读 我要评论

CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了


据 fastcompany 报道,最新出现的两个机械翻译体系完成了极新的冲破——可以在无需仁攀类翻译文本的进修材料的情况下,自立进修翻译地球上的任何说话。机械翻译成长惊人,然则地球上照样稀有以亿计的人无法享受它的好处——因为他们的说话在翻译器的下拉菜单中根本找不到。

Google 的体系应用仁攀类监督的神经收集,比较平行文本——以前由仁攀类翻译过的书本和文┞仿。 经由过程比较这些平行文本中的大年夜量数据,Google 翻译可以进修随便率性两种指定说话之间的对等关系,大年夜而获得在它们之间快速转换的才能。有时刻翻译结不雅会很有趣,可能并不克不及真正反竽暌钩原文的意思,但总的来说,这些翻译是功能性的,跟着时光的推移,他们会越来越好。

如今,两个新的人工智能体系——一个来自西班牙的 delPaísVasco 大年夜学(UPV),另一个来自卡内基梅隆大年夜学(CMU)——承诺会改变┞封一切,为像《星际迷航》(Star Trek)中那样的┞锋正的宇宙通用译者(universal translator)的到来打开大年夜门。

要懂得这些新体系的潜力,起重要懂得当前的机械翻译是若何工作的。 今朝机械翻译的事实标杆是谷歌翻译,这个体系涵盖了大年夜南非语到祖鲁语的 103 种说话,包含世界上前 10 种说话——次序为汉语,西班牙语,英语,印度语,孟加拉语,葡萄牙语,俄语,日语,德语, 和爪哇语。


Google 的做法很好,并且很有效。但不幸的是,它并不是全球通用。

这是因为有监督的培训须要很长的时光以及很多监督人员——因为太多了,谷歌应用了众包——也因为并非世界所有说话之间都有足够多的并行翻译文本。想想看:根据世界说话平易近族学目次,地球上有6,909 种生活说话。个中 414 种的应用人数占仁攀类总数的 94%。因为 Google 翻译涵盖了 103 个,是以会留下6,806 种说话没有机械翻译——个中有 311 种说话的应用人数跨越百万。总的来说,至少有八亿人不克不及享受机械主动翻译的好处。

这两个新的体系——可以在任何说话之间翻译单词和句子——无需经由过程比较大年夜量由仁攀类翻译的平行文本来进修。他们也不须要监督。相反,他们应用未监督的机械进修,并比较不合说话的随机文本。这是若何运作的?因为说话的词语分类是类似的,所以体系猜测这些词是否相等,用这些信息构建翻译词典。他们大年夜中找出句子构造,经由过程在不合的说话之间往返翻沂攀来评估他们猜测的结不雅。

正如 UPV 的研究察 Mikel Artetxe 所描述的那样:“想象一下,你给了一小我很多的中文书本和阿拉伯语书本——这些书都不重叠——然后这小我必须学会把中文翻译成阿拉伯语。 这似乎是弗成能的,对吧?“事实上,这看起来实袈溱太弗成能了,以至于微软人工智能专家 Di He(这两个研究项目标启发者)告诉科学界,他得知”即使没有人工监控,电脑也可以进修翻译”的时刻,整小我都震动了。

一个警告就是,这个体系并不像今朝的平行文本深度进修体系那么精确——然则正如 Di He 指出的那样,电脑可以或许在没有任何仁攀类指导的情况下猜测所有这些事实,这一事实本身的确弗成思议。 我们只是接触到了这种新的进修办法的外面。看起来,可能很快就有一个真正的通用翻译,让我们可以或许与任何人用对方的母语交谈了,这不再仅仅是科幻的器械。

【编辑推荐】

  1. JetBrains 出品的 Go 集成开辟情况 GoLand 宣布正式版
  2. 抢先一步,Rust 构建版支撑直接编译 WebAssembly
  3. Airbnb王宇:揭秘Airbnb的跨洋大年夜数据平台架构
  4. 全球最大年夜储能电池构成功运行,马斯克曾说建不好不要钱
  5. 马云、马化腾、李彦宏、库克齐聚乌镇,都说了啥?
【义务编辑:张燕妮 TEL:(010)68476606】

  推荐阅读

  分布式系统的核心——日志

CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了什么是日记?日记就是按照时光次序追加的、完全有序的记录序列,其实就是一种特别的文件格局,文件是一个字节数组,而这里日记是一个记录数据>>>详细阅读


本文标题:AI能够自学翻译地球上的任何语言了

地址:http://www.17bianji.com/lsqh/39462.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)