我们很高兴介绍Grok-1.5V,这是我们的首款多模态模型。除了强大的文本处理能力外,Grok现在还能处理各种视觉信息,包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。
能力介绍
Grok-1.5V在多个领域与现有的前沿多模态模型相媲美,这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中,Grok在真实世界空间理解方面表现优于同类,该基准测试衡量真实世界的空间理解能力。在所有数据集中,我们都在零样本设置中评估Grok,不使用思维链提示。
基准对比

真实世界理解
为了开发有用的真实世界AI助手,推进模型对物理世界的理解至关重要。为此,我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易,但它们常常对前沿模型构成挑战。
根据流程图生成代码


未来展望
推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月,我们预计将在图像、音频和视频等各种模式上,显著提高这些能力。