Grok-1.5 Vision 预览将数字世界与物理世界连接起来，首款多模态模型

我们很高兴介绍Grok-1.5V，这是我们的首款多模态模型。除了强大的文本处理能力外，Grok现在还能处理各种视觉信息，包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。

能力介绍
Grok-1.5V在多个领域与现有的前沿多模态模型相媲美，这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中，Grok在真实世界空间理解方面表现优于同类，该基准测试衡量真实世界的空间理解能力。在所有数据集中，我们都在零样本设置中评估Grok，不使用思维链提示。

基准对比

真实世界理解
为了开发有用的真实世界AI助手，推进模型对物理世界的理解至关重要。为此，我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易，但它们常常对前沿模型构成挑战。

根据流程图生成代码

未来展望
推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月，我们预计将在图像、音频和视频等各种模式上，显著提高这些能力。

Subscribe 订阅