xAI今日宣布,旗下Grok聊天机器人已加入名为Grok Vision的新功能,用户现在可以通过手机摄像头“指向”现实中的物体,让Grok识别并回答相关问题。这项功能与Google Gemini和ChatGPT已有的实时视觉功能类似,使Grok在多模态交互方面迈出重要一步。
Grok Vision目前仅支持iOS版本的Grok应用,Android用户尚无法使用此功能。
什么是Grok Vision?
Grok Vision允许用户对准手机镜头,拍摄如商品、路牌、文档等现实物体,然后提出自然语言问题。比如:
- “这个药的成分和作用是什么?”
- “这是什么品牌的鞋?”
- “这个停车标志什么意思?”
- “这张纸上写了哪些重要信息?”
xAI表示,这项功能将在现实环境中帮助用户进行更智能的识别与互动,扩展了Grok的实用场景。
Grok今日还发布了哪些新功能?
除了Grok Vision,xAI还为Grok推出了以下更新:
- 多语言语音功能:用户可使用多种语言与Grok语音对话。
- 实时搜索集成至语音模式:Grok在语音模式下可同步进行网络搜索并提供即时答案。
不过,这两项功能目前仅在Android端可用,并且需要订阅xAI的SuperGrok会员计划(月费$30)。
Grok的发展节奏持续加快
Grok的功能近期持续扩展:
- 本月初,Grok加入了**“记忆”功能**,可调用用户过往对话内容提供更具上下文的回答。
- 同时上线的还有Canvas画布工具,让用户在Grok中创建文档、应用或交互内容。
随着Grok Vision和语音功能的加入,xAI正逐步将Grok打造为一款具备视觉、语言、语音和上下文记忆的多模态AI助手,向着与Google Gemini、OpenAI ChatGPT等主流AI竞争对手全面对标。