微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

2024-04-19

Solidot

原文 #Solidot 的其它文章 ➲

微软亚洲研究院发布了 VASA-1 模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语，提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。

文章版权归原作者所有。

#Solidot 的其它文章

2024-04-20 哲学家 Daniel Dennett 去世，享年 82 岁

2024-04-19 比特币第四次采矿回报减半

2024-04-19 陈的量子算法被发现存在无法修正的错误

2024-04-19 黑客威胁披露与制裁和金融犯罪相关的黑名单数据库

前一篇：香港「七连跌」被挤出全球十大货柜港机场贷运连续13年居首后一篇：伊朗中部传爆炸声是以色列报复？看美联社如何分析

后前左右