Meta在2024年Connect大会上发布了新版本的开源AI模型Llama 3.2,这些小型和中型模型能够在边缘设备和移动设备上运行工作负载。Llama 3.2支持多语言文本生成和视觉应用,如图像识别。这是Meta首次推出的开源多模态模型,能够实现需要视觉理解的多种应用。
相比7月发布的Llama 3.1(拥有4050亿参数,是史上最大开源AI模型),Llama 3.2的模型尺寸更小,参数范围从1亿到90亿,适合那些计算资源有限的研究人员。小型模型(1B和3B)专注于文本输入,可以在Qualcomm和MediaTek的硬件上运行,并且经过优化能在Arm架构处理器上本地运行。这种本地处理不仅速度快,而且更安全,因为数据无需上传至云端。
中型模型(11B和90B)则支持多模态输入,能够处理文本和图像,例如用来理解图表和财务报表中的销售数据。
在性能上,Llama 3.2表现优于OpenAI和Anthropic的领先模型。3B版本在任务跟随和内容总结上超越了谷歌Gemma 2 2.6B和微软Phi 3.5-mini,而90B版本在多个基准测试中击败了Claude 3-Haiku和GPT-4o-mini。

为确保安全,Meta在Llama 3.2中引入了新“守护”功能(Llama Guard),增加了图像理解的防护措施,并为小型模型优化了Llama Guard,使其更小巧但仍具备基本功能。
Llama 3.2模型现已在llama.com和Hugging Face上开放下载,用户也可通过谷歌云、AWS、Nvidia、微软Azure等云合作伙伴访问这些模型。Together AI还提供了免费访问Llama 3.2视觉模型(11B)的机会,加速开源AI的应用。