为避免混淆,我们须要厘清本文应用的几个相干术语。speech separation 或 speech segregation(语音分别)都指大年夜背景干扰(可能包含非语音噪声、干扰语音,或者都有,以及室内混响)平分别目标语音的义务。此外,「鸡尾酒会问题」(cocktail party problem)也指语音分别(speech separation)。语音加强或去噪(speech enhancement or denoising)指语音和非语音噪声的分别。如不雅是多个措辞人的语音分别问题,我们应用术语「多措辞人分别」(speaker separation)。
本文的构造如下:起首回想监督语音分别的三个重要方面,即进修机械、练习目标和特点(分别在第二、三、四┞仿进话旧绍)。第五章介绍单声道分别算法,第六章介绍基于阵列的算法。第七章是总结。
图 2. 应用不合练习目标的练习结不雅比较。(a)STOI。(b)PESQ。分别用清楚语音混淆信噪比为-5dB、0dB、5dB 的工厂噪声。可大年夜 http://web.cse.ohio-state.edu/pnl/DNN_toolbox/的 Matlab toolbox 中获取这张图的结不雅和数据。
图 4. 用于语音分别的二阶 DNN(two-stage DNN)的图示 [52]。
图 5. 语音加强中基于 DNN 的频谱映射办法图示 [161]。
图 1. 对混淆了 -5 dB SNR 工厂噪声的 TIMIT 音频数据应用不合练习目标图示。
图 6. 设备主动编码器以进行无监督调试的语音加强 DNN 架构 [182]。AE 堆叠在 DNN 的顶部作为纯度检测器,估计来自 DNN 的清楚语音。
图 7. 基于 LSTM 的语音分别体系的构造展示 [16]。
图 8. 前馈 DNN 和基于 LSTM 的 RNN 的 STOI 改进。(a)信噪比为-5dB 的经练习措辞人的结不雅。(b)信噪比为-5dB 的未练习措辞人的结不雅。
图 9. 基于频谱映射的语音还龉鲼减 DNN 图示 [45]。
图 10. 语音还龉鲼减的混响时光响应 DNN 构造图示(根据 [156] 重画)。
图 11. 基于 DNN 的两个措辞人分别办法图示。
图 12. 听力正常者和听力受损者倾听混淆干扰语句的目标语句并将目标语句大年夜平分别出来时的平均清楚度得分和标准误差 [151]。图中展示了四种不合目标-干扰比率的┞俘确率百分比结不雅。
图 14. 双声道分别算法的构造图示 [171]。
图 15. 单声道掩膜估计的 MVDR 波束成形器 [34]。
推荐阅读
一、预备工作 在 /opt/目次下创建文件夹modules,和softwares 修改操作权限(切换至root用户下) chown -R wxt:wxt /opt/ 然后切换至通俗用户mkdir softwares mkdir modules >>>详细阅读
本文标题:一文概览基于深度学习的监督语音分离
地址:http://www.17bianji.com/lsqh/38221.html
1/2 1