Open AI 的智能代理— - AI TrendTrackers

OpenAI的产品平台负责人Olivier Godement和开发者体验负责人Romain Huet正开启一场全球之旅。上周，他们在伦敦的DevDay开发者大会前夕接受了采访。这次伦敦的DevDay是公司首次在旧金山以外举办，接下来，他们还将前往新加坡。

最近OpenAI可谓繁忙异常。在伦敦，OpenAI发布了其最新的实时API平台更新，开发者现在可以通过平台为应用程序添加语音功能。这一更新不仅提供了全新语音，还加入了帮助生成提示的功能，使得构建应用程序和语音助手的流程更为快速便捷。同时，面向普通用户，OpenAI推出了ChatGPT搜索功能，用户可以通过聊天机器人进行网络搜索。

这些更新为AI的下一大潮流铺平了道路：智能代理——一种能完成复杂任务链的AI助手，比如自动预订机票。Godement预测，未来几年内，每个人和每家企业都将拥有一个“熟悉用户的助手”，像首席助手一样全面管理用户的邮件、应用程序、日程，甚至可以协助撰写特定主题的论文。

OpenAI的策略是既自行构建这些智能代理，同时也为开发者提供工具来开发自己的代理。Godement强调，语音将对智能代理的未来形态起到重要作用。现在的应用程序主要以文字对话为主，虽然适合大多数场景，但在某些情况下，语音显然是更好的交互方式。

不过，要让智能代理成为现实，Godement指出还需要克服两大难题。首先是“推理能力”的挑战。构建能够完成复杂任务并确保“正确执行”的AI模型至关重要。Huet提到，上个月OpenAI发布的o1模型中加入了“推理”功能，通过强化学习提升AI在链式思维上的能力，帮助模型分解问题、纠错、尝试多种方案来回答问题。

不过，对于OpenAI在推理能力方面的主张，华盛顿大学的计算机科学教授Chirag Shah持保留态度。他认为，这些大型语言模型并非真正具有推理能力，而只是对训练数据中的逻辑进行了模仿。Shah认为，这些模型表现得“像是有推理能力，但仔细观察会发现很快露出破绽”。

Godement也承认还有很多工作要做。短期来看，模型需要变得更加可靠、快速和经济。长期来看，OpenAI计划将“链式思维”技术应用到更多领域，例如法律、会计和经济学等。

另一个挑战是实现工具的互联性。AI模型仅依赖训练数据会有局限，需要具备实时上网能力来获取最新信息。ChatGPT搜索正是OpenAI赋予其AI的新功能之一，不仅可以获取信息，还能够在现实中采取行动。竞争对手Anthropic的Claude聊天机器人甚至可以模拟点击操作，而Godement表示o1目前也能“部分”实现工具操作，但还不够可靠。

Godement预计，未来一年内，AI在客户支持等助手任务中的应用将大幅增长。他坦言，AI技术的实际应用往往会超出预期，每年都会冒出一些意想不到的新应用。

在另一个AI前沿，AI公司Decart和Etched合作推出了一个实时生成的Minecraft版本，采用了“下一帧预测”技术。该AI模型通过数百万小时的Minecraft游戏数据训练，能够模拟游戏的物理和环境互动，尽管偶尔会出现如“环境幻觉”般的变化。这一技术或许预示着实时视频生成的未来。

最后，AI的迅猛发展也带来一些潜在问题。AI搜索可能扰乱数字经济，生成AI模型的设备更可能加剧电子垃圾问题，而一些AI生成的内容也引发争议。Facebook母公司Meta的CEO扎克伯格表示，将看到更多由AI生成或汇总的内容，这也许是令人兴奋的新内容形态。

Subscribe 订阅