Grok-1.5这个新星,在测试中就展现了它的超凡魅力,它在MATH基准测试中得分达到了50.6%,在GSM8K基准测试中更是高达90%,这说明它能够轻松应对从小学到高中竞赛级别的各种数学问题。而在HumanEval基准测试中,它的得分为74.1%,展现了它在代码生成和问题解决能力上的娴熟。
Grok-1.5的一个亮点功能是其能够处理长达128K令牌的上下文,这大大增加了模型的记忆容量,使其能够利用来自更长文档的信息,并在维持遵循指令的能力的同时处理更复杂的提示。在针对长文本的检索能力评估(NIAH)中,Grok-1.5展示了其在处理长达128K令牌的上下文中嵌入文本的强大检索能力,实现了完美的检索结果。
Grok-1.5是基于JAX、Rust和Kubernetes的自定义分布式训练框架构建的,这套训练堆栈使X.ai的团队能够以最少的努力在大规模上原型化想法并训练新的架构。自定义的训练协调器确保了训练作业的最大可靠性和正常运行时间,能够自动检测并从训练作业中排除问题节点。在出现故障时,检查点、数据加载和训练作业重启也已优化,以最小化停机时间。
Grok-1.5即将向早期测试者开放,X.ai期待着收到反馈以帮助改进模型。随着公司逐步向更广泛的受众推出Grok-1.5,接下来的几天里还将引入几项新功能。
