【51CTO晃荡】8.26 带你与清华大年夜学、搜狗、京东大年夜咖们一路商量基于算法的IT运维实践
近日,苹不雅 Siri 团队在苹不雅机械进修期刊上连发三文《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》、《Inverse Text Normalization as a Labeling Problem》、《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》,详拭魅展示了苹不雅在语音助手 Siri 上的最新进展与结不雅。个中第一篇文┞仿评论辩论了一项应用声学模型数据的迁徙进修技巧,它可以明显晋升新说话版本 Siri 的精确度。机械之心随后将奉献上第二篇、第三篇博文,敬请读者等待。
用户欲望 Siri 的语音辨认功能保持稳定,不受说话、设备、声音情况或者通信信道带宽的影响。正如其他监督式机械进修义务一样,高精度的获取平日须要大年夜量的标注数据。无论何时在 Siri 中安排新的说话,或者扩大 Siri 以支撑不合的音频信道带宽,我们都面对着是否有足够数据来练习声学模型的挑衅。本文中,我们评论辩论了应用声学模型数据的迁徙进修技巧,该技巧已经投入应用。我们展示了,表征不仅可跨说话迁徙,还可以跨音频信道带宽迁徙。作为一个研究案例,我们专注于以新的 Siri 说话辨认跨越 8 kHz 蓝牙耳机的┞翻带音频。我们的技巧有助于明显晋升新说话版本 Siri 的精确度。
跨说话初始化
即使你只有与练习域相干的有限数据,它也很有价值。绝大年夜多半 Siri 的应用产生在宽带音频信道,只有很少一部分产生在窄带信道(比如,8KHz 蓝牙耳机)。然而,大年夜绝对意义上讲,苹不雅的大年夜量客户在窄带信道上应用 Siri。在新说话版本的 Siri 宣布之前,我们可以汇集的┞翻带蓝牙音频的数量是有限的。尽管如斯,我们的目标仍是在第一天就为客户供给最好的体验。
2014 年年中,Siri 启动了一个应用深度神经收集(DNN)的新语音辨认引擎。该引擎起首惹人到美式英语的 Siri 中,截至 2015 年年中,我们已经把该引擎扩大到 13 种说话。为了实现成功扩大,我们必须应用宣布前可收集的有限数量的转录数据来解决建立高质量声学模型的问题。对于宽带音频情况是如许,例如经由过程 iPhone 麦克风收集宽带音频,而对于经由过程蓝牙耳机收集的┞翻带音频更是如斯。
一个可以解决小数量窄带蓝牙音频问题的办法是带限(band-limit)相对较多、更易收集的宽带音频。实际上,我们发明在有限数量的┞翻带蓝牙音频上练习的声学模型依然优于在更大年夜数量的带限宽带音频上练习的模型,这注解了声学模型练习中域内数据的价值(图 1)。这就请求同时应用大年夜量的宽带音频和有限的┞翻带音频。在这项工作中,我们在迁徙进修框架中查询拜访了神经收集初始化 [1], [2]。
表 1 :窄带蓝牙测试中的词错率(WER)
很多研究者认为 [3] [4] [5] 神经收集声学模型的隐蔽层可以跨说话共享。背后道理在于隐蔽财揭捉?习的特点变换(feature transformation)不太指定具体说话,是以可以在多种说话之间泛化。
图 2. 跨说话初始化
我们将练习好的现有说话窄带 DNN 模型的隐蔽层迁徙到新的目标说话,并应用目标说话数据从新练习该收集,如图 2 所示。
即使我们用不合的源 DNN 进行测验测验,应用所有可用的┞翻带练习数据进行跨说话初始化练习的效不雅平日明显优于基线(详见 [6])。即使只有 20 个小时的┞翻带数据,对大年夜多半说话来说,应用英语窄带模型开端跨说话练习优于应用更多窄带数据的基线。而当我们思虑源竽暌癸言和目标说话之间的说话关系瓯,我们无法得出结论。
跨带宽初始化
图 3. 跨带宽初始化
在最初的实验中,我们发明应用较少真拭魅窄带蓝牙音频数据练习的模型优于应用较多带限宽带数据练习的模型。然则,在一种说话中应用带限数据练习的模型作为初始化的起点仍然是有效的。我们在真拭魅窄带蓝牙音频数据上从新练习带限模型。用这种方法,我们可以或许应用一种说话的宽带和窄带数据来练习窄带模型(见图 3)。
跨说话和跨带宽迁徙的结合
看到前两个迁徙进修技巧的成功之后,我们认为我们可以结合这两种技巧,实现更进一步的成长。具体来说,我们在一个新的说话的带限宽带数据上练习 DNN 时,不须要应用随机权重开端,然则可以初始化在已支撑的说话的带限数据上练习的 DNN 模型中的隐蔽层。
图 4. 跨说话和跨带宽初始化的结合
推荐阅读
【51CTO晃荡】8.26 带你与清华大年夜学、搜狗、京东大年夜咖们一路商量基于算法的IT运维实践 *推荐对象:Mindjet >>>详细阅读
本文标题:苹果机器学习期刊「Siri 三部曲」之一:通过跨带宽和跨语言初始化提升神经网络声学模型
地址:http://www.17bianji.com/lsqh/36929.html
1/2 1