作家
登录

听说现在赶火车刷脸就进站了!跟脸有关的最新玩法是你说什么,表情包就演什么

作者: 来源: 2017-10-12 09:08:05 阅读 我要评论


据说如今赶火车刷脸就进站了!Out,跟脸有关的最新弄法是你说什么,神情包就演什么

视频里,北京、广州、上海、成都、武汉的火趁魅站都接踵开通自助“刷脸”进站通道。

乘客惊呼“连化妆和美瞳都能辨认出来,太神奇!”

按照设计,音频数据供给的信息应仅限于520ms距离内的短期效应。是以,我们可以经由过程禁止情感状况包含短期变更来防止它们包含重叠信息。情感状况专门包含经久效应对揣摸也很有赞助——当情感状况保持不变时,我们也欲望收集能生成合理的动画。为此,我们可以经由过程在损掉函数中惹人一个专用的┞俘则项来处罚情感数据库中的快速变更,如许在练习过程中情感状况就会逐渐平缓。我们的办法有一个较大年夜的局限,我们无法精确模仿眨眼和眼部动作,因为它们与音频无任何干系,也无法经由过程迟缓变更的情感状况来表示。

其实,刷脸早已不是什么新鲜事了!我们今天来聊一个更好玩的事儿,那就是你措辞,AI给你配神情。让你做个真正的虚拟人儿。

文┞仿略逝世板,技巧性的话术有点多,通俗小白估计看起来够呛。技巧宅们,上!

图1. 根据语音揣摸脸部动画的深度神经收集

让我们先大年夜这张图开端吧。以下“我们”一词为论文作者的第一人称。

当收集的输工资时长大年夜约半秒的音频瓯,输出是与音频窗口的中间相对应的固定拓扑网格的3D顶点地位。该收集还有一个用于描述情感状况的二次输入。其神经收集直接大年夜练习数据中进修情感状况,一向行任何情势的预标记(pre-labeling)。

我们提出了一种经由过程低延迟的及时音频输入驱动3D面部动画的机械进修算法。我们的深度神经收集可以进修大年夜输入音频波形到脸部模型的3D顶点坐标的映射,同时还能找到一个简洁的隐蔽代码,这个代码可以用来区份??据音频无法解释的面部神情变更。在进行干涉时,隐蔽代码可以作为面部动画情感状况的直觉控制(intuitive control)。

我们应用基于视觉的传统表演捕获法(performance capture methods)获取了3-5分钟的高质量动画数据,并用这些数据对神经收集进行了练习。我们的重要目标是模仿单个表演者的措辞风格;在用户研究中,当我们用不合性别、口音或讲不合说话的措辞者的语音驱动模型时,我们也能获得不错的结不雅。这些结不雅可应用于游戏对话、低成本本地化、虚拟实际头像和长途出现等技巧中。

CCS 概念: • 计算办法论→动画;神经收集;基于回归的监督进修;进修隐蔽表征;其他关键词:面部动画、深度进修、音频

十一停止,假期开工返乡潮仍在持续。就在昨日,一则视频刷爆同伙圈。

下面我们将阐述该收集的架构,以及关于音频处理和大年夜语音内容平分别出情感状况的细节。

输入一小段音频窗口,神经收集的义务是揣摸该音频窗口(window)中间的面部神情。我们将神情直接表示为面部固定拓扑网格中某一无情感姿势(neutral pose)的逐顶点差分向量。当练习好收集后,我们经由过程在音频轨道滑动窗口来将网格变成动画,在每个时光步长上对收集进行自力评估。固然收集本身没有关于前几帧动画的记忆,然则在实践中它可以生成临时稳定的构造。

架构概览

我们的深度神经收集由一个特别用处层、10个卷积层以及2个完全连接层构成。我们将其切分为3个概念单位,如图1和表1所述。

我们先将音频窗口输入到一个共振峰分析收集中,生成一个随时光变更的语音特点序列,之后我们会用这个序列驱动发音。该神经收集先应用固定函数自相干分析大年夜音频中提掏出原始共振峰信息(请看原文第3.2节),然后再用个中5个卷积层优化这些信息。经由过程练习,卷积层可以进修提取对面部动画有效的短期特点(shortterm features),例如语调、重读和特定音素。第5个卷积层的输出就是词攀类特点随时光变更的抽象表示。

接下来,我们将结不雅输入到一个发音神经收集中。这个收集由5个卷积层构成,这些卷积层可以分享特点的时序变更,并最终肯定一个用于描述音频窗口中间面部姿势的抽象特点向量。

精细绪状况的(进修)描述作为二次输入连接到该发音神经收集中,用以区分不合的面部神情和措辞风格(请看原文第3.3节)。我们精细绪状况表示为一个E维向量,直接将其与发音神经收集每层的输出连接在一路,如许之后的层就可以响应地改变它们的行动。

每个l层都邑输出 Fl×Wl×Hl激活函数,个中Fl 是抽象特点映射的数量,Wl是时光轴的维度,Hl是共振峰周的维度。在共振峰分析收集中,我们应用1×3的strided convolution逐渐减小Hl,逐渐增长Fl,也就是使原始共振峰信息向抽象特点偏移,直到Hl= 1且Fl = 256为止。同样,在发音神经收集中,我们应用3×1卷积减小Wl,也就是经由过程结合不应时光域(temporal neighborhood)的信息来对时光轴进行二次采样(subsample)。

我们选择了表1中列出的特定参数,因为我们发明这些参数在用数据集练习的过程中始终表示优胜,同时也包管了合理的练习次数。固然得出的结不雅对层数或特点映射并不是很敏感,然则我们发明我们必须对两个不合阶段中的卷积进行调剂以避免出现过度拟合。重要的是,共振峰分析统??时光轴的每一个点上都履行雷同的操作,是以我们可以在不合的时光偏移(time offsets)中应用雷同的练习样本。

发音神经收集输出一系列合营表示目标面部姿势的256+E抽象特点,。我们将这些特点输入到一个输出神经收集(output network)中,以在跟踪网格中生成5022个控制顶点的最终3D地位。该输出收集是一对可以对数据进内行单线性转换的全连接层。第一层将输入特点集映射到线性根本函数的权重上,第二层计算对应基向量(basis vectors)的加权总和,用它来表示最终顶点地位。我们将第二层预设为150个预先计算的PCA模块,这些模块总体可以解释练习数据99.9%的变更。理论上,我们可以用一个固定的基准来竽暌剐效地练习先前的层,生成150个PCA系数。然则我们发明,在练习中任由基向量自行变更得出的结不雅反而更好一些。


  推荐阅读

  Linux下利用inode删除指定文件

本文重要介绍应用inode删除异常文件名的文件的办法,供大年夜家参考:在Linux中,有时刻会碰到文件名是乱码或者是某些特别中文的文件,这时刻经由过程文件名就很难删除。1.上传文件时收集异常导致2.删除>>>详细阅读


本文标题:听说现在赶火车刷脸就进站了!跟脸有关的最新玩法是你说什么,表情包就演什么

地址:http://www.17bianji.com/lsqh/37815.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)