图 3. 应用 Viterbi 搜刮在栅格中寻找单位合成最佳路径。图上方是合成的目标半音素,下面的每个框对应一个零丁的单位。Viterbi 搜刮找到的最佳路径为连接被选中单位的线。
钙揭捉?择基于两个标准:(1)单位必须遵守目标音韵;(2)在任何可能的情况下,单位应当在单位界线不产生听觉故障的情况下完成拼接。这两个标准分别叫作目标成本和拼接成本。目标成本是已猜测的目标声学特点和大年夜每个单位采掏出的声学特点(存储在单位索引中)的差别,而拼接成本是后项单位之间的声学差别(见图 4)。总成本按照如下公式计算:
图 4. 基于目标成本和拼接成本的单位选择办法。
Siri 新声音背后的技巧
因为隐马尔可夫模型对声学参数的分布直接建模,所以该模型平日用于对目标猜测 [5][6] 的统计建模,是以我们可以应用如 KL 散度那样的函数异常简单地计算目标成本。然而,基于深度进修的办法平日在参数化的语音合成中加倍出色,是以我们也欲望深度进修的优势能转换到混淆单位选择合成(hybrid unit selection synthesis)中。
惯例 DNN 是一种在输入层和输出层之间有多个隐蔽层的人工神经收集。是以如许的深度神经收集才能对输入特点与输出特点之间的复杂和非线性关系建模。平日深度神经收集应用反向传播算法经由过程误差的传播而更新全部 DNN 的权重。比拟之下,GMM 在应用一系列高斯分布给定输入数据的情况下,再对输出数据的分布进行建模。GMM 平日应用期望最大年夜化(expectation maximization /EM)算法履行练习。MDN 结合了 DNN 和 GMM 模型的长处,即经由过程 DNN 对输入和输出之间的复杂关系进行建模,然则却进步概率分布作为输出(如下图 5)。
Siri 的 TTS 体系的目标是练习一个基于深度进修的同一模型,该模型能主动并精确地猜测数据库中单位的目标成本和拼接成本(concatenation costs)。是以该办法不应用隐马尔可夫模型,而是应用深度混淆密度模型(deep mixture density network /MDN)[7][8] 来猜测特点值的分布。MDS 结合了惯例的深度神经收集和高斯混淆模型(GMM)。
图 5:用于对声音特点的均值和方差建模的深度混淆密度收集,输出的声学均值和方差可用于引导单位选择合成
对于 Siri 来说,我们应用了基于 MDN 同一的目标和拼接模型,该模型能猜测语音目标特点(频谱、音高和音长)和拼接成本分布,并引导单位的搜刮。因为 MDN 的分布是一种高斯概率表分布情势,所以我们能应用似然度函数作为目标和拼接成本的损掉函数:
个中 x_i 是第 i 个目标特点,μ_i 为猜测均值而 (σ_i)^2 为猜测方差。在实际的成本计算中,应用负对数似然函数和移除常数项将变得加倍便利,经由以上处理将简化为以下简单的损掉函数:
个中 w_i 为特点权重。
当我们推敲天然说话时,这种办法的优势将变得异常明显。像元音那样,有时刻语音特点(如话音素)相当稳定,演变也异常迟缓。而有时刻又如有声语音和无声语音的转换那样变更异常敏捷。推敲到这种变更性,模型须要可以或许根据这种变更性对参数作出调剂,深度 MDN 的做法是在模型中应用嵌入方差(variances embedded)。因为猜测的方差是依附于高低文的(context-dependent),所以我们将它们视为成本的主动高低文依附权重。这对晋升合成质量是极为重要的,因为我们欲望在当前高低文下计算目标成本和拼接成本:
个中 w_t 和 w_c 分别为目标和拼接成本权重。在最后的公式中,目标成本心在确保合成语音(语调和音长)中再现音韵。而拼接成本确保了流畅的音韵和腻滑的拼接。
在应用深度 MDN 对单位的总成本进行评分后,我们履行了一种传统的维特比搜刮(Viterbi search)以寻找单位的最佳路径。然后,我们应用波形类似重叠相加算法(waveform similarity overlap-add/WSOLA)找出最佳拼接时刻,是以生成腻滑且持续合成语音。
结论
我们为 Siri 的新声音搭建了一整套基于深度 MDN 的混淆单位选择 TTS 体系。练习语音数据包含在 48KHz 的频率下采样的起码 15 小时高质量语音。我们采取了强迫对齐的方法将这些语音数据瓜分为半音素(half-phones),即经由过程主动语音辨认将输入音素序列和大年夜语音旌旗灯号采掏出的声学特点相匹配。这个瓜分的过程根据语音数据量产生 1~2 百万的半音素单位。
为了引导单位的选择过程,我们应用 MDN 架构练习了同一的目标和拼接模型。深度 MDN 的输入由带有一些额外 continuously-valued 特点的二值构成。该特点表示一系列语句中的多元音素(quinphones)信息(2 个以前的、如今的和对后的音素),音节、短语和句子级的信息,还有额外的凸起和重读特点。
输出向量包含以下声学特点:梅尔倒频谱系数(MFCC)、delta-MFCC、基频(fundamental frequency – f0)和 delta-f0(包含每个单位的开端和停止的值),以及每个单位的音长时光。因为我们应用 MDN 作为声学模型,所以输出同样包含每一个特点的方差,并作为主动高低文依附权重。
练习的深度 MDN 的架构包含 3 个隐蔽层,每一层有 512 个修改线性单位(ReLU)作为非线性激活函数。输入特点和输出特点在练习前接收均值和方差归一化处理。最终的单位选择声音包含单位数据库(含有每个单位的特点和语音数据)和练习的深度 MDN 模型。新的 TTS 体系的质量优于之前的 Siri 体系。在一个 AB 查对主不雅听力测试中,被试者明白地选择基于深度 MDN 的新声音,而不是之前的声音。结不雅如图 6 所示。质量的改良与 TTS 体系中的多个改进有关,如基于深度 MDN 的后端使得单位选择和拼接变得更好,采样率更高(22 kHz vs 48 kHz),音频紧缩更好。
推荐阅读
异常有效的 csplit 敕令可以将单个文件瓜分成多个文件。Carla Schroder 解释说。Linux 有几个用于瓜分文件的对象法度榜样。那么你为什么要瓜分文件呢?一个用例是将大年夜文件瓜分成更小的>>>详细阅读
本文标题:从技术到产品,苹果Siri深度学习语音合成技术揭秘
地址:http://www.17bianji.com/lsqh/37022.html
1/2 1