作家
登录

听说现在赶火车刷脸就进站了!跟脸有关的最新玩法是你说什么,表情包就演什么

作者: 来源: 2017-10-12 09:08:05 阅读 我要评论

音频处理

收集的重要输出是语音音频旌旗灯号,在旌旗灯号输入到收集之前我们将其转换为16 kHz单声道旌旗灯号。在实验中,我们对每个声道的音量(volume)进行正则化,以确保可以应用完全的动态范围[-1,+1],然则我们并没有进行任何诸如动态范围紧缩、降袈潆任何处理或预加强滤波器(pre-emphasis filter)的处理。

表1中的自相干层将输入音频窗口转化为一个简洁的2D表达,之后的卷积层。《语音生成source–filter模型》(filter model of speech production)[Benzeghiba等人. 2007;Lewis 1991]这篇论文启发我们提出了这种办法,他们将音频旌旗灯号建模为线性滤波器(声道)和鼓励旌旗灯号(声带)的混淆体。众所周知,线性滤波器的共振频率(共振峰)携带有关于语音的音素内容的重要信息。鼓励旌旗灯号可以表示措辞者声音的声调、音色和其他特点,我们假设对面部动画而言这种旌旗灯号并不重要,是以我们重要借助共振峰来改良收集对不合措辞者的泛化。

线性猜测编码(LPC)履行旌旗灯号滤波器分别(source–filter separation)的标准办法。LPC将旌旗灯号断为数个短帧旌旗灯号,根据首个自相干系数K计算出每帧旌旗灯号的线性滤哺孀锏数,并履行反向滤波以提取鼓励旌旗灯号。滤波器的共振频率完全取决于自相干系数的值,是以我们选择跳过大年夜部分处理步调,将自相干系数直接作为瞬时共振峰信息的表征。这种办法在直觉上可行,因为自相干系数本质上表示的是一种紧缩情势的旌旗灯号,其频率信息与原始旌旗灯号的频谱(power spectrum)根本匹配。这种表示异常合适卷积收集,因为卷积层可以随便马虎地进修若何估计特定频带的瞬时频谱。

在实验中,我们将520ms的音频作为输入(关于估计输出姿势的260ms汗青样本和260ms将来样本)。我们选择这个数值的原因是,它可以使我们在不向收集供给过多半据(如许会导致过度拟合)的情况下捕获到诸如音素协同发音的相干效应。我们将输出音频窗口分为64个重叠为2x的音频帧,如许每帧音频都对应16ms(256个样本),并且持续的帧数之间距离8ms(128个样本)。在每帧音频中,我们移除直流分量(DC component),用标准Hann窗口减缓时光域混叠效应(temporal aliasing effects)。最后,我们计算出自相干系数K = 32,总共获得了64×32个输入音频窗口标量。固然自相干系数小一点(例如K = 12)也足以确认单个音素,然则我们选择更多地保存关于原始旌旗灯号的信息,以确保之后的层也可以检测出声调变更。

端对端收集架构

我们的办法不合于语音辨认范畴先前的绝大年夜多半办法,这些办法的分析步调平日都基于某一种专用的办法,例如梅尔频率倒谱系数(MFCC)、感知线性猜测系数(PLP)和rasta filtering [Benzeghiba等人. 2007]。这些办法之所以被广泛采取是因为它们可以很好地线性分比傩邑,异常合适隐马尔科夫模型(Hidden Markov Models)。在我们的早期测试中,我们测验测验了几种不合的输入数据表征,结不雅发明我们办法的自相干系数明显更好。

图2.表演者不措辞时动画是什么样?这些是大年夜表演者不措辞的练习集中采取的样本帧。

情感状况的表征

根据语音揣摸面部动画本身就是一个不明白义务,因为同一语音可以对应不合神情。这一点尤其表如今眼睛和眉毛上,因为它们与语音的生成无任何直接关系。用深度神经收集处理词攀类不明白义务相当艰苦,因为练习数据必定会涵盖几乎雷同的语音输入生成大年夜不雷同的输出姿势的情况。图2给出了几个当输入音频剪辑完全无声音时产生抵触练习数据的实例。如不雅收集除了音频数据还有其他可用的数据,它就会进修输出抵触输出的统计均值。

我们解决这些不明白义务的办法是向收集供给一个二次输入。我们将每个练习样本都与一小部分附加的隐蔽数据接洽关系起来,如许收集就有足够的信息用来明白地揣摸出精确的输出姿势。幻想情况下,这些附加数据应编码给定样本时光域内所有无法根据音频本身揣摸出的动画相干特点,包含不合的神情、措辞风格和自相干模式等。通俗地说,我们欲望二次输入能代表表演者的情感状况。除了能清除练习数据中的歧义,二次输入还对揣摸很有赞助——它可以使我们可以或许将不合的情感状况于同一给定声带混归并匹配在一路,以有效地控制得出的动画。让动画实现情感状况的个一一种办法是,根据明显的情感对练习样本进行标记或分类[Anderson等人. 2013;Cao等人. 2005;Deng等人. 2006;Wampler 等人. 2007]。

这种办法并不算幻想,然则因为它无法包管预定义的标记可以充分清除练习数据中的歧义。我们并没有选择依附袈浃定义的标记,而是采取了一种由数据驱动的办法。在这种办法的练习过程中,收集主动进修情感状况的简明表征。如许只要给出足够多样的情感,我们甚至可以大年夜in-character片段(in-character footage)中提掏出有意义的情感状况。我们精细绪状况表示为E维向量,个中E是一个可调参数,在测试中我们将其设定为16或24,并初始化大年夜高斯分布中提掏出的随机值的分量(components。)。

给每个练习样本都分派如许一个向量,我们将保存这些隐蔽变量的矩阵称为“情感数据库”。如表1所示,发音神经收集所有的层的激活函数后都附有情感状况。如许情感状况就作为损掉函数(请看原文第4.3节)computation graph(计算图)的一部分;因为E是一个可练习的参数,是以在进行反向传播时它会跟着收集权重的更新而更新。E维度两种效应之间的均衡。如不雅E太低,情感状况就无法清除练习数据变更的歧义,导致出现不睬想的音频反竽暌钩。如不雅E太高,所有情感状况就会变得太过狭义,无法用于一般揣摸(请看原文第5.1节)。

情感数据库的有如许一个潜在问题:如不雅我们不克不及有效地限制情感数据库,它可能会进修明白地保存音频中出现的信息。如不雅不加限制,它可能会保存肯定大年夜部分面部神情的E blend外形权重(E blend shape weights),弱化音频的感化,并使收集无法处理练习中未竽暌箍现出的数据。


  推荐阅读

  Linux下利用inode删除指定文件

本文重要介绍应用inode删除异常文件名的文件的办法,供大年夜家参考:在Linux中,有时刻会碰到文件名是乱码或者是某些特别中文的文件,这时刻经由过程文件名就很难删除。1.上传文件时收集异常导致2.删除>>>详细阅读


本文标题:听说现在赶火车刷脸就进站了!跟脸有关的最新玩法是你说什么,表情包就演什么

地址:http://www.17bianji.com/lsqh/37815.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)