Meta的Llama 3模型是在创纪录的数据量上训练的,这可能会导致整个人工智能行业的重新思考,并产生更优秀的模型。
在Llama 3中,Meta推出了一款新的语言模型,其在某些领域的表现显著超过其他模型。据Meta称,性能提升的关键在于显著增加的训练数据量和使用1000万高质量示例进行的精细调整。
虽然高质量数据能够提高甚至是较小语言模型的性能已是众所周知的事实——微软最近再次用其Phi-3模型证实了这一点——但用于预训练的数据量仍然令人惊讶。即使是拥有80亿参数的模型也是在大约15万亿个标记上进行训练的。值得注意的是,这种训练不仅远远超过了用于Llama 2的数据量,也超过了DeepMind发展的Chinchilla缩放法则认为的最优数据量。
语言模型可能显著欠训练
根据DeepMind的Chinchilla法则,对于一个80亿参数的模型,约2000亿训练标记被认为是最优的,以最有效地利用计算能力。Llama 3的训练数据量是这个数字的75倍。
尽管训练数据量巨大,Meta发现,“80亿和700亿参数模型在我们对其进行最多15万亿标记的训练后,继续呈对数线性改善”,公司的博客文章中提到。
AI研究员Andrej Karpathy在X(前身为Twitter)上解释说,Chinchilla法则“告诉你计算的最优点”,但没有说明一个模型可以被训练到何种程度直到达到其最大性能。Karpathy是OpenAI的创始成员,曾是特斯拉的AI负责人。
尽管目前尚不清楚通过更长时间的训练能够将语言模型的性能提高到何种程度,直到收益变得微不足道为止。然而,Meta已经表明,尚未触及可能的极限。Karpathy希望其他AI公司将跟随Meta的例子,发布更多经过长时间训练的小型模型。