晚上和新生儿在一起的时光,有时会催生出意想不到的突破。OthersideAI的开发人员Josh Bickett就是在一次深夜喂养女儿时,萌生了一个开创性的“自主运行计算机框架”的想法。Bickett向VentureBeat解释说:“我非常享受和我四周大的女儿在一起的时光,这段时间我学到了很多关于为人父的新课程。但同时,我也有点时间去思考,因为我看到了GPT-4视觉的不同演示。我们现在正在研究的事情实际上可以通过GPT-4视觉实现。”
在抱着女儿的同时,Bickett在电脑上勾勒出了基本框架。“我找到了一个初步的实现……它在正确点击鼠标方面还不是很好。但我们正在做的是定义问题:我们需要弄清楚如何操作计算机。”当OthersideAI的联合创始人兼CEO Matt Shumer看到这个新框架时,他意识到了它巨大的潜力。Shumer对VentureBeat说:“这是通往计算机自动驾驶的里程碑。我们现在拥有传感器。我们有激光雷达系统。接下来,我们要构建智能。”
正如Bickett所描述的,这个框架“让AI控制鼠标的点击位置和所有键盘触发器。它就像一个自动GPT代理,但它不是基于文本的。它是基于视觉的,所以它会截取电脑屏幕的截图,然后决定鼠标点击和键盘操作,就像人类一样。”Shumer进一步阐释了这个框架如何代表了超越之前完全依赖APIs的方法的重大进步。“很多人在计算机上做的事情,你用APIs是做不到的,这是很多其他人在解决这个问题时的方法,他们想要构建一个代理。他们在这项服务的公开API之上构建它,但这并不能扩展到所有东西。”正如Shumer所断言的,“如果你真的想解决一个自主的问题,可以真正帮助我们或让我们完成更多的事情。你必须允许它像人一样工作,因为世界是为人们构建的。”这个框架将屏幕截图作为输入,输出鼠标点击和键盘命令,就像人类一样。但正如Bickett和Shumer所承认的,真正的潜力不在于轻量级框架本身,而在于可以插入它的先进的计算机视觉和推理模型。“框架将只是插入和播放,你只需要插入一个更好的模型,它就会变得更好,”Bickett说。
看看怎样:
当被VentureBeat问及未来的影响时,Shumer描绘了一个大胆的愿景:“一旦这个东西足够可靠,它将成为你的电脑,它将成为你进入数字世界的界面。”有了自主运行计算机框架,先进的AI模型可以学会通过对话命令接管所有计算机交互。正如Shumer所预测的,不同类型的专业计算机代理模型可能会出现来处理不同的任务。
一些可能专注于简单任务的速度,而其他人则擅长复杂推理。模型也可能因企业与消费者使用案例而有所不同。但据Shumer所说,总体目标是开发使人们可以说,“这是我讨厌做的事情。现在,我不必再做了。我们想让它变得如此容易,以至于几乎不会使用计算机的人也可以做到。”Bickett相信,框架的开源性质将进一步加速进展,使全球开发者能够尝试新的应用。Shumer也同意,这个领域有“很多玩家的空间……各种模型提供者。各种应用。并且在这个行业中有很多空间来构建非常非常大的企业。”
尽管Bickett和Shumer看到了巨大的潜力,但要实现真正智能计算机代理的愿景,将需要巨大的资源和持续的创新。为此,AI研究公司Imbue(以前称为Generally Intelligent)最近与Dell建立了一项价值1.5亿美元的合作伙伴关系,以建立一个强大的AI训练平台。大约10000个Nvidia H100 GPU的大型集群将使Imbue能够开发专门针对推理能力优化的新基础模型,这是他们工作的关键重点。正如Imbue联合创始人兼首席执行官Kanjun Qiu所指出的,“推理是代理工作得非常好的核心障碍。”Imbue认为,强大的推理对于开发真正有效的AI代理至关重要,因为它允许机器处理不确定性,适应方法,收集新信息,做出复杂决策,并处理现实世界的复杂性——这些能力对于在狭窄任务之外自主运作至关重要。
该公司采用“全栈”方法,包括优化的基础模型训练、实验性代理和界面原型制作、健壮的工具构建和理论AI研究——旨在推进深度学习的实用和基本理解,以实现具有人类级推理能力和最终人工普遍智能的工程AI。
虽然自主运行计算机框架只是第一步,但Bickett和Shumer认为它将开启一个新时代,届时复杂的AI代理将完全取代人类的计算机界面。深夜可能会继续孕育出颠覆性的想法,但要实现电脑仅通过普通语言就能为任何人、任何地方服务的完整愿景,还需要专注的工作。
去看看 https://github.com/OthersideAI/self-operating-computer