作家
登录

语音识别的下一攀登高峰是“人文境界”?

作者: 来源: 2017-10-31 11:13:15 阅读 我要评论

2017年架构师最重要的48个小时 | 8折倒计时


自负年夜深度进修大年夜热,广泛应用于语音辨认以来,字幕中的单词缺点率急剧降低。尽管如斯,语音辨认并没有达到人文程度,它仍会出现一些故障。承认这些然后采取办法来解决这些问题对于语音识其余进步至关重要。这是独一的大年夜可以辨认一些人的ASR到辨认任何时光任何人的ASR的方法。

在近期的Switchboard语音辨认基准测试中,单词典缺点率获得改进。Switchboard集其实是在2000年收集的,它是由两个随机的以英语为母语的人之间的40个德律风对话构成。

等待在往后的五年在这些方面都能取得进展

域的变更

可以说今朝我们已经在会话式语音辨认上达到“仁攀类”程度,但仅仅只是在Switchboard方面。这个结不雅就像是在一个阳光残暴的日子里的某城市中,只有一小我驾驶着主动驾驶汽车进行测试。比来在这方面取得的进步令人惊奇,然则,关于达到“仁攀类”程度的说法照样太过宽泛,以下是一些仍须要改进的几个方面。

口音和噪音

语音辨认中最明显的缺点之一是处理口音和背景噪声。最直接的原因是,大年夜多半练习数据是由具有高信噪比的美国口音的英语构成。

然则,更多的练习数据可能并不克不及自行解决这个问题。实际生活中,也有很多方言和口音。是以,用标注数据却竽暌功对所有情况是弗成行的。构建一个高质量的语音辨认器,转录了5000多小时的音频难道只是为了以英语为母语的人?

将转录器与百度的深度语音辨认体系Deep Speech 2 比较后发明在转录非美国口音时情况更糟糕。可能是因为美国人在转录时的成见。

在背景有噪音的情况下,移动汽车的信噪比低至5DB并不罕有。这种情况下,人们也可以或许很好的听清彼此。另一方面,语音辨认器在噪声方面的降解速度更快。在上图中,可以清跋扈看到人力和模型误差率之间的差距,大年夜低信噪比急剧上升到高信噪比。

语义缺点

一个语义缺点的例子是,如不雅有人说“让我们在礼拜二会晤”,然则语音辨认器辨认为“我们今天就会晤”。这是出现了单词缺点却没有语义缺点,当然,情况也可能反过来。

应用缺点率作为代劳办事时,必须谨慎。先举一个最坏的例子来解释原因。一个5%的答复可能相当于每20个单词就漏掉落一个。那么,如不雅一句话只有20 个单词典话,那么这句话的缺点率可能就是100%。

当将模型与仁攀类进行比较时,检查缺点的本质是异常重要的,而不仅仅是将谜底视为一个肯定的数字。就经验来看,仁攀类的转录要比语音辨认器产生更少的语义缺点。

微软的研究人员比来比较了仁攀类转录及其仁攀类说话辨认器所犯的缺点,发明的一个差别在于,该模型混淆了“uh”和“uh huh”。这两个词有完全不合的语义。模型和人力都犯了很多雷同类型的缺点。

单通道,多个扬声器

因为每个扬声器都应用零丁的麦克风进行灌音,所以 Switchboard会话义务也更轻易。同一音频流中,多个扬声器没有重叠。另一方面,仁攀类可以很好的懂得多个扬声器有时在同一时光进行的通话的内容。

一个好的会话语音辨认器必须可以或许根据谁在措辞(diarisation)来瓜分音频。它也应当可以或许应用重叠的扬声器(音源分别)来懂得音频。这是可行的,不须要麦克风每一个扬声器,以便会话语音可以在随便率性地位都能工作。

口音和背景噪声是语音辨认器的两个重要的身分,这里还有一些:

  • 混响声音情况变更
  • 来自硬件的artefacts
  • 用于音频和紧缩的artefacts
  • 采样率
  • 措辞人的年纪

高低文

你会发明,像“开关板”如许的单词典缺点率实际上会很高,如不雅你和一个同伙交谈,他们误会了每20个字中的1个,那么你就会很难沟通。

个中的一个原因是评估是在高低文中完成的。在实际生活中,我们会应用很多其他线索、结合语境来赞助我们懂得或人在说什么。但语音辨认器不克不及辨认这些:

  • 对话的汗青和评论辩论的话题
  • 关于我们正在措辞的人的视觉暗示包含神情和唇部活动
  • 措辞的人的背景

今朝,Android的语音辨认器已经控制你的接洽人列表,是以它可以辨认你的同伙的姓名。地图产品中的语音搜刮可以应用地舆定位来缩小你可能想要浏览的感兴趣的地点。当应用这种类型的旌旗灯号时,ASR体系的精度肯定会进步。

安排

【编辑推荐】

  1. 一文概览基于深度进修的监督语音分别
  2. 微软开源竽暌姑于Spark的深度进修库MMLSpark
  3. CNN 在语音辨认中的应用
  4. 一份弗成多得的深度进修技能指南
  5. keras中最常用深度进修的API
【义务编辑:武晓燕 TEL:(010)68476606】

在语音辨认体系中,单词缺点率平日不是实际的目标,语义缺点率才是我们存眷的重点。因为,语义精确与否关系到对他人话语的懂得程度。

当要安排一个新的算法的时刻,可以斟灼揭捉?迟和算法,因为增长计算的算法往往会增长延迟,但为了简单起见,接下来将分别评论辩论。

延迟:完成转录之后,低延迟是十分布见的,它会明显影响用户的体验。是以,几十毫秒内的延迟请求对于ASR体系来说并不少见。固然这可能听起来话苄些极端,但这平日是一系列昂贵计算的第一步,所以,必须谨慎。


  推荐阅读

  别怀疑,就是你!你的信任决定着自动驾驶的命运

2017年架构师最重要的48个小时 | 8折倒计时 工资缺点导致的交通变乱没有让人们恐怖汽车,而主动驾驶的汽车却莫名引起人们的恐怖?让英特尔来告诉你若何清除恐怖,让主动驾驶走入你我的日常生>>>详细阅读


本文标题:语音识别的下一攀登高峰是“人文境界”?

地址:http://www.17bianji.com/lsqh/38298.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)