苹果公司推出了一款名为Ferret-UI 2的全新AI系统 https://huggingface.co/spaces/jadechoghari/ferret-demo ,具备跨设备读取和控制应用程序的能力,支持iPhone、iPad、安卓设备、网络浏览器和Apple TV。该系统在UI元素识别测试中获得了89.73的高分,远超GPT-4o的77.73分,不仅在文本和按钮识别等基础任务上有显著提升,在复杂操作方面也表现出色。
Ferret-UI 2能够理解用户意图,而非依赖具体的点击坐标。举个例子,当用户输入“请确认您的输入”时,系统能识别出相关按钮,而不需要精确的定位数据。这项技术得益于苹果研究团队使用GPT-4o的视觉能力生成的高质量训练数据,从而帮助系统更好地理解UI元素之间的空间关系。
该系统采用自适应架构,在多个平台上识别UI元素。其内置算法可根据不同平台的需求自动平衡图像分辨率和处理需求,既保留信息又有效率。测试结果显示,Ferret-UI 2在跨平台上表现良好,特别是使用iPhone数据训练的模型在iPad上实现68%的准确率,在安卓设备上达到71%。但系统在移动设备与电视或网页接口之间的转换上遇到了一些困难,研究人员认为这是由屏幕布局差异引起的。
此外,苹果测试了多种语言模型,其中Llama-3表现最佳,但体积更小的Gemma-2B也取得了不错的成绩。Llama和Gemma版本的Ferret UI模型目前可在Hugging Face平台获取,配有演示版本。与此同时,微软发布了一款名为OmniParser的开源工具,可以将屏幕内容转换为结构化数据,这也展示了业内对UI理解AI技术的关注。
苹果还发布了一个名为CAMPHOR的框架,通过多AI代理协作来完成复杂任务。结合Ferret-UI 2,该技术有望使Siri等语音助手在未来实现更复杂的任务,例如通过语音命令查找并预订餐厅,进一步提升用户体验。
Ferret-UI 2的推出意味着苹果在打造能够自然理解和操作人类UI界面的AI系统方面迈出了重要一步,为智能交互技术树立了新的标杆。