安排
在会话语音方面的最新进展都还不克不及展开安排。如不雅要解决新语音算法的安排,须要斟灼揭捉?迟和计算量这两个方面。这两者之间是有接洽关系的,算法计算量的增长平日都导致延迟增长。不过简单起见,我将它们分开评论辩论。
关于背景噪声,像在移动的汽车中信噪比(SRN)低至 -5dB 的情况并不罕有。在如许的情况中人们并训斥以交换,而另一方面,噪声情况中语音辨认才能却急速降低。上图中可以看到大年夜高信噪比到低信噪比,人与模型只见的缺点率差距急剧扩大年夜。
延迟:关于延迟,这里我指的是用户说完到转录完成的时光。低延迟是 ASR 一一个广泛的产品束缚,它明显影响到用户体验。对于 ASR 体系来说,10 毫秒的延迟请求并不少见。这听起来可能有点极端,然则请记住文字转录平日只是一系列复杂计算的第一步。例如在语音搜刮中,实际的收集搜刮只能在语音辨认之落后行。
一个关于延迟方面难以改进的例子是双向轮回层。当前所有最先辈的会话语音辨认都在应用它。其问题在于我们无法在第一层计算任何器械,而必须要比及用户说完。所以这里的延迟跟话语时长有关。
上图:只有一个前向轮回,可以在转录时进行计算。
下图:在双向轮回的情况下,必须要等待全部话语说完才能计算转录。
在语音辨认中若何有效结合将来信息仍然是一个开放问题。
计算:转录语音所需的计算才能是一个经济束缚。我们必须推敲语音辨认器每次精度改进的性价比。如不雅改进达不到一个经济门槛,那它就无法安排。
一个大年夜未安排的持续改进的典范案例就是集成。1% 或者 2% 的误差削减很少值得 2-8 倍的计算量增长。新一代 RNN 说话模型也属于这一类,因为它们用在束搜刮市价值昂贵,不过估计将来会有所改变。
须要解释的是,我并不认为研究如安在巨大年夜计算成本上进步精度是无用的。我们已经看到过“先慢而准,然后提速”模式的成功。要提的一点是在改进到足够快之前,它照样弗采取的。
将来五年
语音辨认范畴仍然存在很多开放性和挑衅性的问题:
- 在新地区、口音、远场和低信噪比语音方面的才能扩大
- 在辨认过程中惹人更多的高低文
- Diarisation 和声源分别
- 评价语音识其余语义缺点率和立异办法
- 超低延迟和高效推理
【编辑推荐】
- 若何用TensorFlow在安卓设备上实现深度进修揣摸
- 用深度进修和树搜刮进行大年夜零开端的既快又慢的进修
- TensorFlow广度和深度进修的教程
- 做AI必须要知道的十种深度进修办法
- 深度进修和通俗机械进修之间有何差别?
推荐阅读
开辟者大年夜赛路演 | 12月16日,技巧立异,北京不见不散 混淆云如今很热点,但其经久前景是多云。日前在美国拉斯维加斯召开的AWS re:Invent 2017 云计算大年夜会上,很多人看好混淆云的将>>>详细阅读
本文标题:深度学习也解决不掉语音识别问题
地址:http://www.17bianji.com/lsqh/39479.html
1/2 1