Google 正在为即将推出的 Android 16 开发一项全新 API,让系统应用可以在其他应用程序中代替用户执行操作。这项新功能的核心是一项专属权限,目前计划仅授予默认的智能助理应用,例如在新款 Android 设备上作为默认助理服务的 Gemini。这为 Gemini 成为用户手机上的 AI 代理铺平了道路,也兑现了 Google 自 Pixel 4 推出全新 Google Assistant 时所承诺的功能愿景。
Gemini 的日益强大:从扩展到全面控制
Gemini 是 Google 力推的聊天机器人及大型语言模型(LLM),目前已深度整合到 Google 的产品体系中。在许多 Android 设备上,它已经成为默认助理服务,并随着每次更新扩展其功能。尽管 Gemini 目前可以通过 Gemini Extensions 与外部服务交互,但它对 Android 应用的直接控制能力依然非常有限。
目前,Gemini Extensions 支持通过后端 API 访问 Google Flights、Google Maps、YouTube、Google Workspace 等服务,但仅限于调用用户账户数据,而非直接控制 Android 应用本身。虽然某些扩展(如 Utilities)可以通过预定义的意图执行简单操作,但这种实现方式并不适用于更复杂的任务。
Gemini 面临的另一个问题是可扩展性。Android 应用数量庞大,许多应用没有公开的 API,扩展覆盖率有限。而通过屏幕读取、辅助功能输入等技术让 Gemini 理论上可以控制任意应用,但由于缺乏上下文,这种方法很难达到理想效果。因此,为解决这些问题,Google 在 Android 16 中引入了一项新功能:App Functions。
App Functions API:Gemini 的全新能力
在本周发布的 Android 16 开发者预览版中,开发文档显示了名为 “App Functions” 的新特性。根据 Google 的描述,App Functions 是应用向系统提供的特定功能点,允许应用程序通过系统接口执行这些功能。例如,餐厅应用可以定义一个“orderFood”的功能来完成订餐,而酒店应用则可以提供一个“bookRoom”的功能来预订房间。
App Functions 的具体实现方式目前仍不完全明确,但初步信息显示,应用可以通过服务定义这些功能,而这些服务只能由系统进程绑定。这些功能点将暴露给 Android 的 App Search Framework,这个框架目前支持 Pixel 启动器中的全局搜索功能等。
执行这些功能需要新的权限:EXECUTE_APP_FUNCTIONS 和 EXECUTE_APP_FUNCTIONS_TRUSTED。只有系统应用能够获取这些权限,其中前者授予默认助理应用(如 Google 应用),后者则授予特定系统角色(如 Android System Intelligence)。这些权限允许应用在其他应用程序中“代替用户执行操作”,为 AI 助理控制应用程序提供了技术基础。
Gemini:接近真正的 AI 代理
早在 2019 年,Google 就曾展示过全新 Google Assistant 的能力,声称它可以跨应用完成复杂任务,如通过语音回复消息、发送照片等。然而,这种功能未能真正落地。而 Android 16 的 App Functions API 可能会让 Gemini 成为一个真正的 AI 代理,实现这些当初的愿景。
不过,这一切能否实现,还取决于应用开发者是否愿意采用 App Functions API。只有更多开发者将其功能点集成到系统中,Gemini 才能充分发挥潜力,成为 Android 用户的真正 AI 助手。
总结
Android 16 的 App Functions 为 AI 助理开辟了新可能,让 Gemini 有望实现对 Android 应用的深度控制。未来,Google 能否说服开发者采用这项功能,以及用户是否愿意赋予 AI 代理更大权限,将是决定这一技术能否成功的关键因素。