内哥谈技术油管频道：https://www.youtube.com/@n-technology/ . 生成式人工智能正在改变我们所在的时代。想要探索生成式人工智能的前沿进展吗？订阅我们的中文简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！

YouTube Channel: https://www.youtube.com/@n-technology/. Want to explore the cutting-edge advancements in generative AI? Subscribe to our newsletter, offering in-depth analysis of the latest technological breakthroughs, practical application cases, and future trends. Benefit along with numerous global peers from deep industry insights and practical guides.

xAI的Grok聊天机器人现在具备“视觉”能力，能看懂现实世界

Posted on April 23, 2025 by aitrendtrackers@rengongzhineng.io

xAI今日宣布，旗下Grok聊天机器人已加入名为Grok Vision的新功能，用户现在可以通过手机摄像头“指向”现实中的物体，让Grok识别并回答相关问题。这项功能与Google Gemini和ChatGPT已有的实时视觉功能类似，使Grok在多模态交互方面迈出重要一步。

Grok Vision目前仅支持iOS版本的Grok应用，Android用户尚无法使用此功能。

什么是Grok Vision？

Grok Vision允许用户对准手机镜头，拍摄如商品、路牌、文档等现实物体，然后提出自然语言问题。比如：

“这个药的成分和作用是什么？”
“这是什么品牌的鞋？”
“这个停车标志什么意思？”
“这张纸上写了哪些重要信息？”

xAI表示，这项功能将在现实环境中帮助用户进行更智能的识别与互动，扩展了Grok的实用场景。

Grok今日还发布了哪些新功能？

除了Grok Vision，xAI还为Grok推出了以下更新：

多语言语音功能：用户可使用多种语言与Grok语音对话。
实时搜索集成至语音模式：Grok在语音模式下可同步进行网络搜索并提供即时答案。

不过，这两项功能目前仅在Android端可用，并且需要订阅xAI的SuperGrok会员计划（月费$30）。

Grok的发展节奏持续加快

Grok的功能近期持续扩展：

本月初，Grok加入了**“记忆”功能**，可调用用户过往对话内容提供更具上下文的回答。
同时上线的还有Canvas画布工具，让用户在Grok中创建文档、应用或交互内容。

随着Grok Vision和语音功能的加入，xAI正逐步将Grok打造为一款具备视觉、语言、语音和上下文记忆的多模态AI助手，向着与Google Gemini、OpenAI ChatGPT等主流AI竞争对手全面对标。