谷歌DeepMind首席执行官Demis Hassabis近日表示,被称为“世界模型”(world models)的AI系统正在朝通用人工智能(AGI)迈出关键一步,并取得了“令人惊讶的进展”。他指出,这些模型不再只是模仿语言或生成图像,而是开始理解物理世界的真实结构,具备推理和预测现实动态的能力。
“世界模型”接近理解现实世界的本质
Hassabis在评论谷歌最新的视频模型Veo 3时称,其在模拟现实物理现象方面的表现“令人震惊”,能够准确捕捉物体运动的直觉物理规律,说明其背后正在激活对现实更深层的结构性理解。他表示:“这不只是生成图像,它触及了某种更真实的东西。”
在他看来,这类AI系统类似人脑,不只是构建现实的表征,更是模拟现实本身的底层规则与复杂性。这种能力让研究人员有机会以计算方式理解现实的本质,这也是Hassabis一贯追求的“终极目标”:探索现实世界的根本结构。
从模拟游戏到通用智能:世界模型是DeepMind的核心路线
Hassabis指出,构建世界模型一直是DeepMind实现AGI的核心策略之一,早在他十几岁设计模拟游戏《Theme Park》时便萌生了这一理念。他强调:“对我们来说,构建世界模型从一开始就是通往AGI的计划。”
这一思路也贯穿了DeepMind的多个实验性项目。例如,Genie项目能够将静态图像转换为可交互的3D游戏环境,赋予图像世界物理属性和动态交互性,正是朝“理解并参与现实世界”的方向迈进。
世界模型背后的哲学:从模仿到体验
在DeepMind近期的一篇论文中,两位重量级AI研究员——Richard Sutton与David Silver也对世界模型的重要性进行了强调。他们认为,AI发展应该摆脱对人类标签和数据的依赖,转向通过环境交互学习的系统,即让AI像人类或动物一样通过试错与反馈获得知识。
他们主张AI应具备内在世界模型:能够预测未来、做出决策,并具备感知—行动—反馈的循环机制。这不仅仅限于语言模型,而是涉及视觉、触觉、运动等多模态体验。
强化学习将在这一过程中扮演关键角色。通过在真实或逼真的环境中进行试验,AI将不只是识别数据,而是逐步建立起与现实世界动态交互的能力。
一个全新AI时代的开端?
在Hassabis、Sutton与Silver看来,这一“从模仿转向经验”的范式变革,是AI迈向AGI的真正起点。与单纯的语言理解或图像生成不同,世界模型提供了AI与现实交互、理解、预测甚至主动探索的可能性。
这也意味着,未来的AI不再只是回答问题或生成文本,而是能真正“看懂”“预测”甚至“介入”现实世界。正如Hassabis所说:“我们不仅在构建AI工具,而是在尝试还原宇宙的运行法则。”
世界模型的突破,让人们对AGI的实现路径有了更加清晰的轮廓。通过模拟现实、体验现实并在其中学习,AI或许正在悄然接近通向人类级智能的门槛。