作家
登录

为了合成让人类听懂的语音,机器做了哪些“深度学习”?

作者: 来源: 2017-09-05 09:18:40 阅读 我要评论

深度进修在2006年开端崭露头脚后,近几年取得了飞速的成长,无论是学术研究照样企业应用均出现出指数级增长的趋势;伴跟着这项技巧的赓续成熟,深度进修在智能语音范畴率先发力,取得一系列成功的应用。

深度进修在统计参数语音合成中的应用

语音合成重要采取波形拼接合成和统计参数合成两种方法。波形拼接语音合成须要有足够的高质量发音人灌音才能够合成高质量的语音,它是贸易产品中最常用的语音合成技巧。统计参数语音合成固然整体合成质量略低,然则在小范围语料、低占用资本的情况下,优势更为明显。此外,混淆语音合成结合了波形拼接合成和统计参数合成的优势,选音办法类似于传统的波形拼接办法,它应用参数合成办法来指导选音;接下来重点介绍今朝广泛应用的语音合成办法:

(1) 传统的基于DNN/LSTM的合成

为了合成让仁攀类听懂的语音,机械做了哪些“深度进修”?

传统的基于HMM统计参数的语音合成是在练习过程中建立文本参数与声学参数之间的映射模型,经由过程高斯混淆模型描述每个建模单位。在建模过程中有三个环节会导致语音音质降低,第一是决定计划树的聚类,第二是声码器,第三是参数生成算法。针对决定计划树聚类问题,可以经由过程深层神经收集建立文本特点和声学特点之间的映射关系,替代传统的浅层模型,进步模型精度;比较典范的深层神经收集模型构造包含深层置信神经收集和长短时记忆递归神经收集;后者具有更强的序列进修才能,采取BLSTM-RNN建模时,还可以跳过参数生成算法直接猜测语音参数,最后经由过程声码器就可以合成语音;总的来说,应用深层神经收集强大年夜的非线性建模才能,在必定程度上晋升了语音合成体系的机能,然则并没有彪炳原有的语音合成体系框架。

(2) 基于WaveNet的合成

为了合成让仁攀类听懂的语音,机械做了哪些“深度进修”?

WaveNet语音合成体系的输入包含文本特点以及先前时段的音频采样点。个中文本特点的有效表述起到异常重要的感化。如不雅在没有文本序列的情况下来练习收集,仍然可以生成语音,然则无法听懂输出音频的内容。WaveNet语音合成体系存在的问题是模型每次输出单个采样点,枷⒚效力难以知足实用请求。可以惹人一些自适应的办法对已有模型进行优化,使其可以或许实用于不合发音人。也可以在模型的输入端供给更多的信息,例如情感或口音,如许使得生成的语音可以更多样化,更具表示力。

(3) 基于DeepVoice的合成

为了合成让仁攀类听懂的语音,机械做了哪些“深度进修”?

百度提出了Deep Voice语音合成体系,它将琅绫擎的很多模块用深度神经收集去实现,经由过程类似于WaveNet的合成器来合成,效不雅也是比较幻想的。已有的语音合成体系会在某些环节上采取深度进修,但在Deep Voice之前,没有团队采取全深度进修的框架。传统语音合成须要进行大年夜量的特点处理和特点构建,但百度经由过程应用深度进修避免了这些问题。这使得 Deep Voice 的应用范围加倍广泛,应用起来也加倍便利。如不雅须要应用于新的数据集,传统的语音合成体系完成从新练习需数天到数周的时光进行调节,而对Deep Voice进论述动操作和练习模型所需的时光只要几个小时就足够。比拟于WaveNet语音合成体系 ,如今这个体系的有效速度晋升了400倍。

(4) 两个端对端的语音合成

在已有的研究中,很少有人会直接在时域上对已有音频建模。大年夜直觉上分析,构建一个自回归模型,可以或许猜测每一个samples是若何被前面所有的samples所影响的,是一个相当艰苦的义务。谷歌提出的基于WaveNets的语音合成办法,彪炳了传统语音合成框架,绕开声码器模块,直接对采样点进行猜测,面对这个充斥挑衅的问题,取得了冲破。

第一个是Char2Wav,这个模型是直接对输入的文本进行编码,采取encoder-decoder模型。对输入特点进行编码,然后生成的中心编码信息放到解码器里进行最后的合成,合成采取SimpleRNN的合成器来合成语音,效不雅也是比较幻想的,并且是典范的End-To-End的语音合成模型。

为了合成让仁攀类听懂的语音,机械做了哪些“深度进修”?

作者:马骥,极限元智能科技结合开创人,中科院-极限元“智能交互结合实验室”副主任。

再一个是谷歌提出的端对端的语音合成体系,它跟Char2Wav比较类似,输入的也是Embeddings,合成的效不雅也比较理性。

例如,一. 音色的定制化,须要跟踪录大年夜量的音库,从新练习一个模型;二. 个性化表示办法的定制化,可以录一些数据,经由过程深度进修练习模型,自适应的办法来实现。

作者,马骥:极限元智能科技结合开创人,中科院-极限元“智能交互结合实验室”副主任,曾先后就职于中科耘敉件研究所、华为技巧有限公司,获得多项关于语音及音频范畴的专利,资深软件开辟工程师和收集安然解决筹划专家,善于大年夜用户角度分析需求,供给有效的技巧解决筹划,具有丰富的贸易交换和项目治理经验。


  推荐阅读

  理解Python asyncio内部实现机制

协程 (coroutine) 几乎是 Python 里最为复杂的特点之一了,这篇文┞仿我们来说一说 asyncio 的内部实现机制,借词攀来懂得一门说话要支撑协程须要做的工作。本文须要提前懂得 Python 的 >>>详细阅读


本文标题:为了合成让人类听懂的语音,机器做了哪些“深度学习”?

地址:http://www.17bianji.com/lsqh/37132.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)