越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音片段同步。六月,三星的应用科学家 详细介绍了一种能够对人的头像中的眉毛,嘴巴,睫毛和脸颊进行动画处理的端到端模型。仅仅几周后,Udacity 展示了一种系统,该系统会自动从音频旁白生成站立演讲视频。两年前,卡内基·梅隆大学的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。
在这项工作和其他工作的基础上,微软研究团队本周提出了一项技术,他们声称这种技术可以提高音频驱动的有声谈话动画的逼真度。以前的头部生成方法需要具有中性音调的干净且相对无噪声的音频,但是研究人员表示,他们的方法(将音频序列分解为语音内容和背景噪声等因素)可以推广到嘈杂且“情感丰富”的数据样本。
众所周知,言语充满变化。不同的人会在不同的上下文中用不同的持续时间,幅度,语调等说出相同的单词。除了语言(语音)内容外,语音还包含大量信息,可揭示说话人的情绪状态,身份(性别,年龄,种族)和性格,仅举几例。” “据我们所知,从音频表示学习的角度来看,[我们的]是提高性能的第一种方法。”
他们提出的技术的基础是学习隐性表示的可变自动编码器(VAE)。VAE将输入音频序列分解为不同的表示形式,用于编码内容,情感和其他变化因素。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入的面部图像一起被馈送到视频生成器以对面部进行动画处理。
研究人员获得了三个数据集来训练和测试VAE:GRID,一个视听语料库,包含来自34个讲话者的1000记录;CREMA-D,由来自91个不同种族的演员的7,442个剪辑组成;和LRS3,这是一个TED视频中超过100,000个口头句子的数据库。他们将GRID和CREMA-D输入模型中,教他们如何分解语音和情感表示,然后他们使用一对定量指标,峰信噪比(PSNR)和结构相似性指数( SSIM)。
该团队表示,就性能而言,他们的方法在所有指标上均与其他方法保持纯正,中立的话语水平相当。而且,他们指出,它能够在整个情感范围内始终如一地表现,并且与当前所有最新的说话头生成方法兼容。
共同作者写道:“我们针对变体的可学习先验方法可扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们通过对嘈杂的和情感的音频样本进行测试来验证模型,并表明在存在这种音频变化的情况下,我们的方法明显优于当前的最新技术。