本周一,谷歌正式发布了新一代AI视频生成器Veo 2 和AI图像生成器Imagen 3。Veo 2在早期2024年推出的版本基础上进行了显著升级,不仅能够生成4K分辨率视频,还可延长视频时长。此次更新紧随Veo刚刚集成至企业平台Vertex AI一周后上线,Veo 2目前已开放给部分创作者,通过Google Labs的VideoFX平台进行体验。
与此同时,Imagen 3已在ImageFX平台面向全球100多个国家正式上线。新版图像生成模型具备更强大的能力,可以更加准确地呈现多样化的艺术风格,并提升图像的构图和细节表现力。
Veo 2:全新升级与功能亮点
谷歌CEO桑达尔·皮查伊(Sundar Pichai)在X平台发布了Veo 2的升级功能,称其为“尖端视频生成模型”,强调了其在理解现实世界物理运动和电影科学方面的能力。
核心改进:
- 理解复杂镜头与电影语言:
Veo 2不仅能够生成符合现实物理规律的视频,还能理解复杂的提示词。例如:“低角度跟踪镜头,穿越场景中心”或“科学家透过显微镜的特写镜头”。 - 4K分辨率与更长时长:
Veo 2可以生成4K分辨率的视频,并且时长可达“数分钟”,尽管谷歌并未具体说明视频生成的最长时限。 - 减少幻觉与细节错误:
相较于其他视频生成模型容易出现多余细节(如额外手指或意外物体),Veo 2在细节生成上的“出错率明显降低”。 - 安全性与水印技术:
为防止生成视频被滥用,例如制作Deepfake假视频,谷歌在Veo 2生成的视频中加入了SynthID水印技术,以便辨别真实与AI生成的内容。
谷歌表示,将逐步推出Veo 2,进一步提升视频质量与安全性,最终实现全球发布。
Imagen 3:全球上线与新功能
Imagen 3作为最新一代AI图像生成器,具备生成更加明亮且构图精准的图像能力,涵盖从写实风格到印象派,从抽象艺术到动漫风格的多种艺术风格。此外,该模型在理解用户提示词方面表现更为忠实,生成的图像具有更丰富的细节和更高质量的纹理表现。
核心亮点:
- 多样化艺术风格:Imagen 3能够呈现不同艺术风格的图像,包括高度写实、创意抽象和动漫风格等。
- 细节与质感优化:更丰富的细节、更自然的纹理,让生成的图像更具视觉冲击力。
新实验工具“Whisk”
谷歌还在Google Labs中推出了基于Imagen 3的新实验工具Whisk,让用户可以更加精准地创建和修改图像。通过输入或生成图像,用户可轻松“重混”(remix)内容,创造个性化作品,例如“数字毛绒玩偶”、“搪瓷徽章”或贴纸。
Whisk结合了Gemini的视觉理解与描述能力,可以自动为用户的图像生成详细的文本描述,并将其输入至Imagen 3,从而简化图像生成过程,使用户轻松实现创意。
总结
谷歌通过Veo 2和Imagen 3的升级,进一步推动了AI在视频与图像生成领域的前沿发展。Veo 2以更高的分辨率、更长的时长和更少的错误率,满足了内容创作者的高要求。而Imagen 3通过精准的风格呈现与细节优化,让全球用户能够轻松创造更多样化的视觉艺术。此外,像Whisk这样的工具更凸显了AI在创意辅助领域的巨大潜力。这些创新无疑将为视频和图像创作者带来更高效、更丰富的创作体验。