OpenAI的产品平台负责人Olivier Godement和开发者体验负责人Romain Huet正开启一场全球之旅。上周,他们在伦敦的DevDay开发者大会前夕接受了采访。这次伦敦的DevDay是公司首次在旧金山以外举办,接下来,他们还将前往新加坡。
最近OpenAI可谓繁忙异常。在伦敦,OpenAI发布了其最新的实时API平台更新,开发者现在可以通过平台为应用程序添加语音功能。这一更新不仅提供了全新语音,还加入了帮助生成提示的功能,使得构建应用程序和语音助手的流程更为快速便捷。同时,面向普通用户,OpenAI推出了ChatGPT搜索功能,用户可以通过聊天机器人进行网络搜索。
这些更新为AI的下一大潮流铺平了道路:智能代理——一种能完成复杂任务链的AI助手,比如自动预订机票。Godement预测,未来几年内,每个人和每家企业都将拥有一个“熟悉用户的助手”,像首席助手一样全面管理用户的邮件、应用程序、日程,甚至可以协助撰写特定主题的论文。
OpenAI的策略是既自行构建这些智能代理,同时也为开发者提供工具来开发自己的代理。Godement强调,语音将对智能代理的未来形态起到重要作用。现在的应用程序主要以文字对话为主,虽然适合大多数场景,但在某些情况下,语音显然是更好的交互方式。
不过,要让智能代理成为现实,Godement指出还需要克服两大难题。首先是“推理能力”的挑战。构建能够完成复杂任务并确保“正确执行”的AI模型至关重要。Huet提到,上个月OpenAI发布的o1模型中加入了“推理”功能,通过强化学习提升AI在链式思维上的能力,帮助模型分解问题、纠错、尝试多种方案来回答问题。
不过,对于OpenAI在推理能力方面的主张,华盛顿大学的计算机科学教授Chirag Shah持保留态度。他认为,这些大型语言模型并非真正具有推理能力,而只是对训练数据中的逻辑进行了模仿。Shah认为,这些模型表现得“像是有推理能力,但仔细观察会发现很快露出破绽”。
Godement也承认还有很多工作要做。短期来看,模型需要变得更加可靠、快速和经济。长期来看,OpenAI计划将“链式思维”技术应用到更多领域,例如法律、会计和经济学等。
另一个挑战是实现工具的互联性。AI模型仅依赖训练数据会有局限,需要具备实时上网能力来获取最新信息。ChatGPT搜索正是OpenAI赋予其AI的新功能之一,不仅可以获取信息,还能够在现实中采取行动。竞争对手Anthropic的Claude聊天机器人甚至可以模拟点击操作,而Godement表示o1目前也能“部分”实现工具操作,但还不够可靠。
Godement预计,未来一年内,AI在客户支持等助手任务中的应用将大幅增长。他坦言,AI技术的实际应用往往会超出预期,每年都会冒出一些意想不到的新应用。
在另一个AI前沿,AI公司Decart和Etched合作推出了一个实时生成的Minecraft版本,采用了“下一帧预测”技术。该AI模型通过数百万小时的Minecraft游戏数据训练,能够模拟游戏的物理和环境互动,尽管偶尔会出现如“环境幻觉”般的变化。这一技术或许预示着实时视频生成的未来。
最后,AI的迅猛发展也带来一些潜在问题。AI搜索可能扰乱数字经济,生成AI模型的设备更可能加剧电子垃圾问题,而一些AI生成的内容也引发争议。Facebook母公司Meta的CEO扎克伯格表示,将看到更多由AI生成或汇总的内容,这也许是令人兴奋的新内容形态。