Phind-70B-运行速度提高4倍的同时，缩小了与GPT-4 Turbo在代码质量上的差距

近日，科技界迎来了一个激动人心的消息：Phind-70B模型正式发布，这是目前为止最大、性能最强的模型。Phind-70B能够以每秒高达80个token的速度运行，为用户在技术话题上提供高质量的答案，极大地缩短了等待时间，提升了开发者的整体用户体验。

该模型是在CodeLlama-70B的基础上，通过对额外500亿token进行微调而来，带来了显著的性能提升，并支持高达32K token的上下文窗口。

在人类评估标准HumanEval上，Phind-70B以82.3%的高分超越了最新的GPT-4 Turbo（gpt-4-0125-preview）的81.1%。而在Meta的CRUXEval数据集上，尽管Phind-70B以59%的得分略低于GPT-4报告的62%，但在实际工作负载中的表现说明了Phind-70B在代码生成领域与GPT-4 Turbo处于同一质量水平，甚至在某些任务上表现更佳。Phind-70B展现出的主动性也超过了GPT-4 Turbo，在生成详细代码示例方面表现出更少的犹豫。

得益于在NVIDIA的H100 GPU上运行TensorRT-LLM库的优化，Phind-70B的运行速度是GPT-4 Turbo的四倍，达到每秒80个以上的token。该团队正在努力进一步提高Phind-70B的推理速度。

Subscribe 订阅