作家
登录

一文概览基于深度学习的监督语音分离

作者: 来源: 2017-10-26 06:19:44 阅读 我要评论

沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散!


【编辑推荐】

  1. 深度进修入门篇——手把手教你用TensorFlow练习模型
  2. 天然说话处理最终偏向:深度学惯用于天然说话处理的5大年夜优势
  3. 深度进修应当应用复数吗?
  4. 一文读懂深度进修与机械进修的差别
  5. 若何懂得深度进修分布式练习中的large batch size与learning rate的关系?
【义务编辑:庞桂玉 TEL:(010)68476606】

摘要:语音分别是指将目标语音大年夜背景干扰平分别出来的义务。传统上,语音分别被算作一个旌旗灯号处理问题。比来出现一种新办法把语音分别作为监督进修问题处理,大年夜练习数据中进修语音、措辞人和背景噪声的判别模式(discriminative pattern)。以前十年内已经有很多监督分别算法被提出,特别是比来提出的基于深度进修的监督语音分别有很多进步之处,在分别义务中的表示有很大年夜的进步。这篇论文对比来几年基于深度进修的监督语音分别的研究进行了概述。我们起首介绍语音分别的背景和监督分别的形成。然后我们将评论辩论监督分别中的三个重要构成部分:进修机械、练习目标和声学特点。本文对监督语音分别的概述重要着眼于分别算法,我们将回想单声道办法,包含语音加强(语音-非语音分别)、措辞人分别(多人谈话分别)、语音还龉鲼减(speech dereverberation),以及麦克风阵列技巧(multi-microphone technique)。本文还评论辩论了泛化这一重要问题。本文大年夜汗青视角论述监督语音分别的技巧成长过程。此外,我们还评论辩论了很多概念上的器械,比如目标源的构成。

1. 引言

语音分别的目标是把目标语音大年夜背景干扰平分别出来。在旌旗灯号处理中,语音分别属于很根本的义务类型,应用范围很广泛,包含听力假体、移动通信、鲁棒的主动语音以及措辞人辨认。仁攀类听觉体系能随便马虎地将一小我的声音和另一小我的分别开来。即使在鸡尾酒会那样的声音情况中,我们似乎也能毫不辛苦地在其他人的措辞声和情况噪声的包抄中听到一小我的措辞内容。是以语音分别问题平日也被叫做「鸡尾酒会问题」(cocktail party problem),该术语由 Cherry 在他 1953 年那篇有名论文中提出 [22]。

仁攀类最重要的交换方法就是说话,对我们来说,大年夜背景干扰平分别出语所以至关重要的。感兴趣的演讲或者目标谈话经常被其它来源的多余噪声和外面反射产生的混响所干扰。固然仁攀类能随便马虎地分别语音,但事实证实,在这项根本义务中,构建一个可以或许媲丽仁攀类听觉体系的主动化体系是很有挑衅性的。在 Cherry 1953 年出版的书 [23] 中,他不雅察到:「今朝为止没有任何机械能解决『鸡尾酒会问题』。」很不幸的是,固然本文提到的近期研究进展已经开端解决这个问题,但在我们这个范沉闼楝他的结论一向保持了 60 多年的┞俘确性。

图 3. DNN 进行特点进修的图示,应用线性 SVM 对学得的特点进行 IBM 值估计 [147]。

语音分别异常重要,已经在旌旗灯号处理范畴被研究了几十年。根据传感器或麦克风的数量,分别办法可分为单声道办法(单个麦克风)和阵列办法(多个麦克风)。单声道分别的两个传统办法是语音加强 [95] 和计算听觉场景分析(CASA)[140]。语音加强办法分析语音和噪声的全部数据,然后经由带噪语音的噪声估计,进而对清楚语音进行估计 [32][95]。最简单以及应用最广泛的加强办法是频谱相减法(spectral subtraction)[10],个中估计噪声的功率谱会大年夜带噪语音中删去。为了估计背景噪声,语音加强技巧一般假定背景噪所以稳定的,也就是说,其频谱特点不会随时光变更,或者至少比语音稳定一些。CASA 建立在听觉场景分析的感知理论基本上 [12],应用聚类束缚(grouping cue)如基音频率(pitch)和起音(onset)。例如,tandem 算法经由过程交换 pitch 估计和基于 pitch 的聚类进行语音分别 [65]。

由两个或更多的麦克风构成的┞敷列应用不合的语音分别办法。波束成形,或者说空间滤波器,经由过程恰当的┞敷列构造增强大年夜特定的偏向达到的旌旗灯号,进而削减来自其它偏向的干扰 [134][11][7][74]。最简单的波束成形是一种延迟-叠加技巧,能将来自目标偏向的多个麦克风的旌旗灯号以雷同的相位相加,并根据相差削减来自其它偏向的旌旗灯号。噪声的削减量取决于阵列的距离、尺寸和构造,平日跟着麦克风数量和阵列长度的增长,削减量也会增长。显然,当目标源和干扰源被共置,或者很接近的时刻,空间滤波器是无法应用的。此外,在反响场景中,波束成形的效用大年夜幅降低,对声源偏向的剖断变得模糊不清。

一种比来提出的办法将语音分别算作一个监督进修问题。监督语音分别的最初形成受 CASA 中时频掩膜(time-frequency (T-F) masking)概念的启发 [98][140][138]。CASA 的重要目标是幻想二值掩膜(ideal binary mask,IBM)[63],表示目标旌旗灯号是否控制混淆旌旗灯号时频表示中的一个 T-F 单位。听力研究显示,幻想二值掩膜可以或许明显进步正常听力者(NH)和听力受损者(HI)在嘈杂情况中的语音懂得才能 [13][1][91][141]。以 IBM 作为计算目标,则语音分别变成了二值分类问题,这恰是监督进修的一种根本情势。在这种情况下,IBM 被当做练习中的目标旌旗灯号或目标函数。在测试中,进修机械的目标就是估计 IBM,这也是监督语音分别的第一练习目标(拜见 Sect. III)。

因为语音分别已经变成分类问题,是以数据驱动的办法在语音处理范畴获得了广泛研究。在以前的十年内,经由过程应用大年夜型练习数据和增长计算资本,监督语音分别大年夜幅进步了最先辈机能 [17]。监督分别大年夜深度进修的成长中受益良多,这也是本文的主题。监督语音分别算法可以大年夜体上分为以下几个部分:进修机械、练习目标和声学特点。本文,我们起首回想这三个部分。然后介绍代表性算法,包含单声道办法和基于阵列的算法。泛化作为监督语音分别的特有议题,也将在本文中进行评论辩论。


  推荐阅读

  Hadoop伪分布式搭建操作步骤指南

一、预备工作 在 /opt/目次下创建文件夹modules,和softwares 修改操作权限(切换至root用户下) chown -R wxt:wxt /opt/ 然后切换至通俗用户mkdir softwares mkdir modules >>>详细阅读


本文标题:一文概览基于深度学习的监督语音分离

地址:http://www.17bianji.com/lsqh/38221.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)