🔍 引言:GUI自动化的复杂挑战
图形用户界面(GUI)作为人机交互的重要桥梁,覆盖了网页、桌面和移动平台。GUI自动化有望彻底改变工作流程,尤其在重复性任务和复杂任务环境中,能够显著提高生产力。然而,不同平台在视觉布局、操作逻辑 和交互方式 上存在显著差异,使得跨平台的自动化解决方案难以开发。
当前技术面临的核心难题包括:
- 自然语言指令与视觉元素的对齐:传统依赖于HTML 或 可访问性树 来建模GUI元素,但这些文本抽象往往无法捕捉GUI的视觉细节。
- 多模态推理的缺失:许多系统无法有效结合视觉与语言,导致理解复杂界面环境的能力有限。
- 数据碎片化:训练数据集往往偏重于理解 或 规划 中的某一部分,导致模型在某些任务上表现出色,但在其他任务上力不从心。
🚀 AGUVIS:纯视觉统一框架横空出世
为解决这些挑战,香港大学与Salesforce AI研究团队联合推出了AGUVIS(包含7B和72B两个版本)。

核心特性:
1️⃣ 完全基于图像输入:抛弃传统的文本表示,全面采用图像观察 进行建模,降低了数据碎片化带来的性能瓶颈。
2️⃣ 统一的操作空间:在不同平台上保持一致的操作逻辑,支持跨平台泛化。
3️⃣ 多模态推理与显性规划:集成显性规划功能,支持复杂任务的多步骤执行。
4️⃣ 模块化架构:支持可插拔的操作系统,适应不同平台的独特交互需求(例如移动端的滑动手势)。
🛠️ 双阶段训练策略
第一阶段:视觉元素的理解与映射
- 模型专注于将自然语言指令映射到GUI的视觉元素。
- 使用Grounding Packing策略,将多个指令-动作对打包到单个GUI截图中,最大化图像的训练效率。
第二阶段:规划与推理
- 模型学习跨平台的多步骤任务执行。
- 包含详细的内部思维过程,如观察描述、思考推理和低级别的动作指令。
- 通过逐步增加训练任务的复杂性,模型能够精确执行细致的任务。
📊 卓越的性能表现
在多个平台上,AGUVIS均展示出超越现有技术的显著优势:
- GUI定位准确率:网页88.3%,移动端85.7%,桌面端81.8%。
- 推理任务成功率:较其他模型在离线任务中提高51.9%。
- 推理成本大幅降低:与GPT-4o相比,推理成本降低93%。


视觉输入的优势:
- 在720p图像分辨率下,AGUVIS的令牌成本仅为1200,而HTML和可访问性树分别需要4000和6000。
- 这种高效的数据表示减少了计算资源占用,提高了推理速度。
💡 AGUVIS的技术亮点
1️⃣ 纯视觉数据流:消除了文本表示带来的信息损失,确保模型与GUI的视觉本质对齐。
2️⃣ 多模态推理:能够在视觉与语言之间高效结合,理解复杂的用户界面。
3️⃣ 统一数据集:结合真实数据 和合成数据,支持多场景的推理和理解任务。
4️⃣ 模块化设计:可适配不同平台的特定操作逻辑,增强跨平台泛化能力。
🏆 AGUVIS的行业影响
✅ 对开发者: 提供一个通用、高效的GUI自动化工具,减少平台差异带来的开发负担。
✅ 对企业: 提高自动化任务的执行效率,降低人工操作成本。
✅ 对AI研究者: 提供一个统一的跨平台训练和评估框架,推动GUI自动化领域的前沿研究。
🔮 未来展望
AGUVIS通过其纯视觉架构 和模块化设计,打破了GUI自动化在跨平台应用中的瓶颈,展示了一个全新的可能性。
无论是生产力工具,还是复杂AI系统,AGUVIS的出现都为自主GUI交互奠定了坚实的基础。
👀 未来,AGUVIS或将成为跨平台GUI自动化的行业标准。