您的位置
主页 > 教育培训 » 正文

微软AI:一张面部照片一段音频,完美生成头像演讲视频

来源:www.sciatl.com.cn 点击:685

两天前我想分享新智慧

新智慧报告编辑:大明[新知园指南]如何制作大型演讲视频?微软AI表示,一张脸照片和一张语音音频就足够了。音频有噪音吗?发音不准确吗?这不是问题,只需要两个,剩下的就留给AI了。 AI生成的语音视频有什么影响?让我们了解新的AI朋友圈

越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音剪辑同步。

今年6月,三星的应用科学家描述了一种端到端模型,该模型可以使人的化身中的眉毛,嘴巴,睫毛和脸颊动起来。几周后,人工智能教育机构Udacity展示了一种系统,该系统可根据旁白音频自动生成演讲者的语音视频。早在两年前,卡内基梅隆大学的研究人员就发表了一篇论文,描述了一种将面部运动从一个人移动到另一个人的方法。

论文链接:

基于本(和其他)论文的结果,本周,微软研究团队提出了一项技术,研究人员声称该技术可以提高音频生成的视听视频的保真度。

过去,类似的生成方法需要高音频质量,并且通常需要中性,纯净和相对低噪声的地板音频。微软研究人员说,他们这次提供的方法可以将音频序列分解为语音内容和背景噪声,从而大大降低了对音频样本的质量要求,并且可以使用嘈杂甚至“感觉”的音频数据样本来生成。视频。

“众所周知,语言一直充满变化。对于同一件事,不同的人会根据不同的上下文使用不同的发音时间,幅度,语调等。除了语音内容外,该语言的语音包含丰富的其他信息,从中您可以了解说话者的情绪状态,身份(性别,年龄,种族)和个性。据我们所知,从音频表示学习的角度来看,建议的方法是提高语音性能的第一种方法。”

此方法的技术基础是可以学习隐式表示的变量自动编码器(VAE)。 VAE能够将输入音频序列分解为不同的表示形式,以对内容,情感和其他可变因素进行编码。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入面部图像一起发送到视频生成器以对面部进行动画处理。

输入图像和输出视频的屏幕截图比较

研究人员使用三个数据集来训练和测试VAE,即:

GRID,一个视听语料库,其中包含来自34个说话者的1000个录音;

CREMA-D,由来自91个不同种族的7442个剪辑组成。

LRS3,包括从TED视频中提取的100,000多个句子的数据库。

研究人员将GRID和CREMA-D输入到模型中,以教模型如何分解和表达语音片段,然后使用一对定量指标:峰信噪比(PSNR)和结构相似性指数(SSIM)。测量VAE的性能。

与基准方法在不同数据集上的性能比较

结果表明,在处理纯自然语音段时,文本中的方法与其他模型一样好。它还可以在整个情绪范围内保持一致的表现,并且与当前所有最新的说话人生成方法兼容。

该论文的作者说:“我们对变体的可学习的先前方法可以扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们传递了嘈杂的情感音频。对样本进行了测试,以验证模型是否正确,并表明在存在此类音频变化的情况下,我们的方法明显优于当前的技术水平。”

论文链接:

收款报告投诉

新智慧报告编辑:大明[新知园指南]如何制作大型演讲视频?微软AI表示,一张脸照片和一张语音音频就足够了。音频有噪音吗?发音不准确吗?这不是问题,只需要两个,剩下的就留给AI了。 AI生成的语音视频有什么影响?让我们了解新的AI朋友圈

越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音剪辑同步。

今年6月,三星的应用科学家描述了一种端到端模型,该模型可以使人的化身中的眉毛,嘴巴,睫毛和脸颊动起来。几周后,人工智能教育机构Udacity展示了一种系统,该系统可根据旁白音频自动生成演讲者的语音视频。早在两年前,卡内基梅隆大学的研究人员就发表了一篇论文,描述了一种将面部运动从一个人移动到另一个人的方法。

论文链接:

基于本(和其他)论文的结果,本周,微软研究团队提出了一项技术,研究人员声称该技术可以提高音频生成的视听视频的保真度。

过去,类似的生成方法需要高音频质量,并且通常需要中性,纯净和相对低噪声的地板音频。微软研究人员说,他们这次提供的方法可以将音频序列分解为语音内容和背景噪声,从而大大降低了对音频样本的质量要求,并且可以使用嘈杂甚至“感觉”的音频数据样本来生成。视频。

“众所周知,语言一直充满变化。对于同一件事,不同的人会根据不同的上下文使用不同的发音时间,幅度,语调等。除了语音内容外,该语言的语音包含丰富的其他信息,从中您可以了解说话者的情绪状态,身份(性别,年龄,种族)和个性。据我们所知,从音频表示学习的角度来看,建议的方法是提高语音性能的第一种方法。”

此方法的技术基础是可以学习隐式表示的变量自动编码器(VAE)。 VAE能够将输入音频序列分解为不同的表示形式,以对内容,情感和其他可变因素进行编码。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入面部图像一起发送到视频生成器以对面部进行动画处理。

输入图像和输出视频的屏幕截图比较

研究人员使用三个数据集来训练和测试VAE,即:

GRID,一个视听语料库,其中包含来自34个说话者的1000个录音;

CREMA-D,由来自91个不同种族的7442个剪辑组成。

LRS3,包括从TED视频中提取的100,000多个句子的数据库。

研究人员将GRID和CREMA-D输入到模型中,以教模型如何分解和表达语音片段,然后使用一对定量指标:峰信噪比(PSNR)和结构相似性指数(SSIM)。测量VAE的性能。

与基准方法在不同数据集上的性能比较

结果表明,在处理纯自然语音段时,文本中的方法与其他模型一样好。它还可以在整个情绪范围内保持一致的表现,并且与当前所有最新的说话人生成方法兼容。

该论文的作者说:“我们对变体的可学习的先前方法可以扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们传递了嘈杂的情感音频。对样本进行了测试,以验证模型是否正确,并表明在存在此类音频变化的情况下,我们的方法明显优于当前的技术水平。”

论文链接: