x.ai刚刚宣布了Grok 1.5的发布，听说这次更新后的版本在推理能力和处理更长上下文方面都有了大幅提升

Grok-1.5这个新星，在测试中就展现了它的超凡魅力，它在MATH基准测试中得分达到了50.6%，在GSM8K基准测试中更是高达90%，这说明它能够轻松应对从小学到高中竞赛级别的各种数学问题。而在HumanEval基准测试中，它的得分为74.1%，展现了它在代码生成和问题解决能力上的娴熟。

Grok-1.5的一个亮点功能是其能够处理长达128K令牌的上下文，这大大增加了模型的记忆容量，使其能够利用来自更长文档的信息，并在维持遵循指令的能力的同时处理更复杂的提示。在针对长文本的检索能力评估（NIAH）中，Grok-1.5展示了其在处理长达128K令牌的上下文中嵌入文本的强大检索能力，实现了完美的检索结果。

Grok-1.5是基于JAX、Rust和Kubernetes的自定义分布式训练框架构建的，这套训练堆栈使X.ai的团队能够以最少的努力在大规模上原型化想法并训练新的架构。自定义的训练协调器确保了训练作业的最大可靠性和正常运行时间，能够自动检测并从训练作业中排除问题节点。在出现故障时，检查点、数据加载和训练作业重启也已优化，以最小化停机时间。

Grok-1.5即将向早期测试者开放，X.ai期待着收到反馈以帮助改进模型。随着公司逐步向更广泛的受众推出Grok-1.5，接下来的几天里还将引入几项新功能。

Subscribe 订阅