2024年4月,Meta发布了最新版本的AI语言模型——Llama 3,其数据集规模是Llama 2的7倍以上。Llama 3最初推出了8B和70B参数规模,表现远超Llama 2、谷歌的开源模型Gemma以及Anthrophic的Claude Sonnet。自那以后,Sonnet进行了升级,成为最强大的AI模型之一。
关键突破
最新泄露的信息显示,备受期待的Llama 3最强大版本——训练参数超过4000亿的模型,可能即将发布。这是Meta众多新模型之一,使用了数十万台Nvidia H100 GPU进行训练。
在早期测试中,经过指令调优的Llama 3 400B在MMLU基准测试中得分86.1,已经达到了GPT-4的一半参数表现水平。这一结果意味着,Meta在模型架构和训练方法上取得了重大进展,足以对OpenAI形成强有力的竞争。
效率与性能
Llama 3 400B能够以更少的参数实现与GPT-4相当的性能,表明其在计算资源、能耗和成本方面可能比ChatGPT 4更高效。大参数模型在基准测试和实际任务中通常表现更好,但Llama 3 400B的高效表现让人们看到了其巨大的潜力。
开源优势
另一个令人兴奋的原因是Llama 3在研究和商业用途下以开源许可发布,尽管400B版本是否会同样开源尚未明确。如果开源,研究人员和开发者将可以免费使用这些最先进的语言能力,通过多种云平台和生态系统,加速创新和新应用的开发。
拥有如此强大的模型将使研究人员能够快速开发先进的语言AI应用,而无需依赖昂贵的专有API。
最新进展
Meta AI自4月18日发布Llama 3的新闻稿以来,就一直在暗示400B模型的发布。“我们最大的模型超过4000亿参数,”当时他们写道,并补充说“在接下来的几个月里,我们将发布多个具有新功能的模型,包括多模态、支持多语言对话、更长的上下文窗口以及更强的整体能力。”
自那时以来,网络上充满了关于400B模型可能发布日期的各种理论和猜测。虽然Meta确认Llama 3 400B的开发已经完成,但尚未公布正式发布日期。
然而,WhatsApp Beta用户在Android 2.24.14.7上发现了一个新选项,可以尝试Meta AI的Llama 3-405B模型。虽然该选项目前仅限于测试用户,并且使用量有限,但这足以让人们对全面发布感到兴奋,可能会在2024年7月底或8月发布。
总结
Meta的Llama 3模型,无论是从数据规模、性能效率还是开源优势,都展示了其在AI语言模型领域的卓越实力。随着400B版本的即将发布,研究人员和开发者将迎来一个崭新的AI时代。