DeepMind,谷歌旗下的AI研究机构,最近推出了一款名为 Genie 2 的模型,这款工具可以生成“无限”种类的可玩3D世界。https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Genie 2 是 DeepMind 在今年早些时候发布的 Genie 模型的升级版。它能够根据单张图像和文本描述(例如“一个可爱的类人机器人在森林中”),实时生成互动场景。类似于 Fei-Fei Li 所属公司 World Labs 和以色列初创企业 Decart 开发的模型,Genie 2 专注于创造独特的虚拟空间。
DeepMind 声称,Genie 2 可以生成“极其丰富多样”的3D世界,用户可以通过鼠标或键盘在这些世界中进行跳跃、游泳等互动操作。该模型经过视频训练,具备模拟物体交互、动画、光影、物理效果、反射以及“NPC”行为的能力。
AAA级游戏画质的秘密?
Genie 2 的许多模拟效果堪比 AAA 游戏。这或许与其训练数据中包含了流行游戏的试玩视频有关。然而,出于竞争或其他原因,DeepMind 并未透露具体的数据来源细节。毕竟,数据采集方法可能涉及知识产权问题。有观点质疑,作为 Google 的子公司,DeepMind 是否利用 YouTube 的使用条款,未经授权地将平台上的视频用作训练数据?这些问题或许最终需要法院来裁定。
“瞬间记忆”的技术突破
Genie 2 可生成各种视角(如第一人称、等距视图)的连续世界,时间最长约1分钟,大多数场景持续10到20秒。与其他类似模型相比,Genie 2 的优势在于能够记住屏幕外的场景,并在需要时准确重现。例如,模型可以区分键盘按键的作用,“知道方向键应该移动机器人,而不是树木或云朵。”
许多世界模型(例如 Decart 的 Minecraft 模拟器 Oasis)常出现低分辨率、布局记忆混乱等问题。而 Genie 2 在模拟一致性和细节上表现更加出色,这让其更适合作为研究和创意工具,而非真正的游戏开发工具。
AI创造新边界,开发者态度复杂
DeepMind 将 Genie 2 定位为一种研究和原型工具,可用于快速生成交互式环境或测试 AI 代理的新任务。“通过 Genie 2 的分布外泛化能力,概念艺术和草图可以转化为完全互动的虚拟世界,”DeepMind 在博客中写道。
不过,这对游戏行业的创作者来说,可能是喜忧参半的消息。在当前的趋势下,许多大公司(如 Activision Blizzard)正利用 AI 技术削减成本、提升效率,而这常常伴随着裁员等争议。
尽管如此,谷歌显然对世界模型研究寄予厚望,并持续加码投入。去年10月,DeepMind 招募了开发 OpenAI 视频生成器 Sora 的负责人 Tim Brooks,专注于视频生成和世界模拟技术的开发。而两年前,DeepMind 从 Meta 挖来了以开放式游戏实验闻名的 Tim Rocktäschel。
无论争议如何,像 Genie 2 这样的工具,正在为虚拟世界的创建打开全新可能性。