微软研究人员开发了名为VASA的新系统,该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型,能够产生精确同步的唇动、自然的头部动作和面部表情,这些都有可能在各种应用中创造更加引人入胜和逼真的体验。

VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作,使生成的面孔显得更加可信。此外,用户还可以控制生成视频的内容,比如指定角色的凝视方向、感知距离乃至情绪状态。
最棒的是,该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练,但它仍然可以使用这些输入生成视频。
VASA-1之所以能实现这种现实感,是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。
VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频(512×512像素),在离线模式下,其生成帧率为每秒45帧,而在线生成的帧率为每秒40帧。
虽然承认这项技术可能被滥用的潜力,研究人员还是强调了VASA-1的积极应用,包括增强教育体验、帮助有沟通障碍的人士,以及提供陪伴或治疗支持。
然而,我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西,这项技术可能会在选举期间被严重滥用,其发布时间本可以推迟。此外,我发现这项技术与谷歌的VLOGGER非常相似。