预计今年12月推出的Jarvis将大显身手,助力企业完成开发、客户关系管理(CRM)、企业资源计划(ERP)等多项任务。据《The Information》报道,Google正致力于开发Jarvis,这款AI系统基于其全新语言模型Gemini 2.0,支持用户在Chrome浏览器上自动化操作,如进行研究、购物等。它不仅具备读取和理解截图的功能,还能生成文本并模拟用户操作,为企业和个人用户带来更多便利。
目前,AI自动化市场已引入多方竞争者。除Google外,Anthropic和OpenAI等公司也在开发类似技术,推动Agentic AI领域的创新。Anthropic的最新功能“计算机使用”能力可让开发者通过Claude 3.5 Sonnet与Anthropic API进行交互,AI能阅读和解释屏幕内容、输入文本、移动光标、点击按钮,并在窗口和应用间切换。这种高效自动化的方式远优于传统的流程自动化(RPA),为用户操作电脑开辟了全新路径。
虽然Jarvis看似面向普通消费者,但其浏览器端的操作能力对企业用户同样适用,特别是在依赖网页端的开发、工作流和自动化管理等领域。业界传言,Google可能比Anthropic更早具备基于截图的坐标识别能力,表明该公司早已在AI自动化领域进行深入探索。
与此同时,OpenAI也在研发类似功能,有消息称其内部已有一项名为“Tools”的功能,与Anthropic的技术理念如出一辙。此外,Meta也在缩小其语言模型的尺寸,以实现智能手机兼容性,而微软则在其Copilot中新增了“Vision”功能,可以识别图像并回答相关问题。苹果也在通过Apple Intelligence更新,让Siri具备更强的自动化能力。
综上,AI驱动的自动化操作技术正逐渐改变人们的计算机交互方式,Jarvis和其他系统的推出或将掀起新一轮自动化浪潮,为用户带来前所未有的操作效率和智能体验。