作家
登录

深度学习也解决不掉语音识别问题

作者: 来源: 2017-12-06 09:04:27 阅读 我要评论

开辟者大年夜赛路演 | 12月16日,技巧立异,北京不见不散


自负年夜深度进修被惹人语音辨认后,误字率敏捷降低。不过,固然你可能读到过一些相干文┞仿,但其实说话辨认仍然还没有达到仁攀类水准。语音辨认已经有了很多掉败的模式。而要将 ASR(主动语音辨认)大年夜仅在大年夜部分时光实用于一部分人成长到在任何时刻实用于任何人,独一的办法就是承认这些掉败并采取办法解决它们。

在交换台通话(Switchboard conversational)语音辨认标准测试中误字率方面的进展。这个数据集采集于 2000 年,它由四十个德律风通话构成,这些通话分别属于随机的两个以英语为母语的人。

仅仅基于交换台通话的结不雅就声称已经达到仁攀类水准的语音辨认,就如同在某个气象晴朗、没有车流的小镇成功测试主动驾驶就声称已经达到仁攀类驾驶水准一样。近期语音辨认范畴的成长确切异常震动。然则,关于那些声称达到仁攀类水准的说法就太宽泛了。下面是一些还有待晋升的范畴。

口音和噪声

我等待着往后 5 年在以上以及其他方面取得的进展。

语音辨认中最明显的一个缺点就是对口音 [1] 和背景噪声的处理。最直接的原因是大年夜部分的练习数据都是高信噪比、美式口音的英语。比如在交换台通话的练习和测试数据集中只有母语为英语的通话者(大年夜多半为美国人),并且背景噪声很少。

而仅凭练习数据自身是无法解决这个问题的。在许很多多的说话中又拥有着大年夜量的方言和口音,我们弗成能针对所有的情况收集到足够的加注数据。单是为美式口音英语构建一个高质量的语音辨认器就须要 5000 小时以上的转灌音频。

人工转录和百度的 Deep Speech 2 模型在各类语音中的比较 [2] 。留意人工在转录非美式口音时总表示得更差,这可能要归咎于转录员群体中的美国成见。我更期望为各地区安排本土的转录员,让地区口音的缺点率更低。

语义缺点

平日语音辨认体系的实际目标并不是误字率。我们更关怀的是语义缺点率,就是被误会的那部分话语。

举个语义缺点的例子,比如或人说“let’s meet up Tuesday”,但语音辨认猜测为“let’s meet up today”。我们也可能在单词缺点的情况下保持语义精确,比如语音辨认器漏掉落了“up”而猜测为“let’s meet Tuesday”,如许话语的语义是不变的。

在应用误字率作为指标时必须要当心。举一个最坏的例子,5% 的误字率大年夜概相当于每 20 个单词漏掉落 1 个。如不雅每个语句有 20 个悼?川大年夜约是英语语句平均值),那么竽暌癸句缺点率可能高达 100%。欲望缺点的单词不会改变句子的语义,不然即便只有 5% 的误字率也可能会导致每个句子都被误读。

将模型与人工进行比较时的重点是查找缺点的本质,而不仅仅是将误字率作为一个决定性的数字。在我的经历里,人工转录会比语音辨认更少产生极端语义缺点。

深度进修也解决不掉落语音辨认问题

比来微软的研究人员将他们的人工级语音辨认器的缺点与仁攀类进行了比较 [3]。他们发明的一个差别是该模型比人更频繁地混淆“uh”和“uh huh”。而这两条术语的语义大年夜不雷同:“uh”只是个填充词,而“uh huh”是一个反向确认。这个模型和人出现了很多雷同类型的缺点。

单通道和多人会话

因为每个通话者都由零丁的麦克风进行记录,所以交换台通话义务也变得加倍简单。在同一个音频流琅绫腔有多个通话者的重叠。而另一方面,仁攀类却可以懂得有时同时贰言的多个会话者。

一个好的会话语音辨认器必须可以或许根据谁在措辞对音频进行划分(Diarisation),还应当能弄清重叠的会话(声源分别)。它不只在每个会话者嘴边都有麦克风的情况下可行,进一步才能优胜地应对产生在任何处所的会话。

范畴变更

口音和背景噪声只是语音辨认有待强化的两个方面。这还有一些其他的:

  • 来自声情况变更的混响
  • 硬件造成的伪影
  • 音频的编解码器和紧缩伪影
  • 采样率
  • 会话者的年纪

大年夜多半人甚至都不会留意 mp3 和 wav 文件的差别。但在声称达到仁攀类水准的机能之前,语音辨认还须要进一步加强对文件来源多样化的处理。

高低文

你会留意到像交换台如许仁攀类水准误字率的基准实际上是异常高的。如不雅你在跟一个同伙交换时,他每 20 个单词就误会个一一个,沟通会很艰苦。

一个原因在于如许的评估是高低文无关的。而实际生活中我们会应用很多其他的线索来帮助懂得别人在说什么。列举几小我类应用高低文而语音辨认器没有的情况:

  • 汗青会话和评论辩论过的话题
  • 措辞人的视觉暗示,包含面部神情和嘴唇动作
  • 关于会话者的先验常识

今朝,Android 的语音辨认器已经控制了你的接洽人列表,它能辨认出你同伙的名字 [4]。地图产品的语音搜刮则经由过程地舆定位缩小你想要导航的兴趣点范围 [5]。

当参加这些旌旗灯号时,ASR 体系肯定会有所进步。不过,关于可用的高低文类型以及若何应用它,我们才方才触及外相。


  推荐阅读

  为什么混合云将成为一种过渡战略?

开辟者大年夜赛路演 | 12月16日,技巧立异,北京不见不散 混淆云如今很热点,但其经久前景是多云。日前在美国拉斯维加斯召开的AWS re:Invent 2017 云计算大年夜会上,很多人看好混淆云的将>>>详细阅读


本文标题:深度学习也解决不掉语音识别问题

地址:http://www.17bianji.com/lsqh/39479.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)