AI领域新星:Apple推出小模型家族 https://huggingface.co/apple/DCLM-7B
随着全球对全新GPT-4o-mini的赞誉不断,Apple也加入了小模型的研发热潮。就在几小时前,Apple的研究团队作为DataComp语言模型项目的一部分,在Hugging Face平台上发布了一组开源的DCLM模型。
DCLM模型的亮点
这次发布的核心包括两个主要模型:一个拥有70亿参数,另一个拥有14亿参数。这两个模型在基准测试中的表现都相当不错,尤其是70亿参数的那个——它不仅超越了Mistral-7B,还接近其他领先的开源模型,如Llama 3和Gemma。
Apple ML团队的Vaishaal Shankar将这些模型称为“表现最好的开源模型”。值得注意的是,这个项目是真正的开源,不仅发布了模型权重,还包括训练代码和预训练数据集。
Apple DCLM模型的背景
DataComp项目由Apple、华盛顿大学、特拉维夫大学和丰田研究所的多学科研究团队领导。该项目的目标是设计高质量的数据集,用于训练AI模型,特别是在多模态领域。通过使用标准化框架——包括固定的模型架构、训练代码、超参数和评估方法,团队进行不同的实验,以找出最佳的数据筛选策略,从而训练出高性能的模型。
研究团队发现,基于模型的过滤方法,即使用机器学习模型自动从大数据集中筛选高质量数据,是组建高质量训练集的关键。为了展示这一筛选技术的有效性,研究团队使用筛选后的数据集DCLM-Baseline,从头开始训练了新的DCLM解码器,仅英文语言模型,分别具有70亿和14亿参数。
DCLM-7B模型的性能
70亿参数的模型使用基于OpenLM框架的预训练方案,训练了2.5万亿个标记,具有2K上下文窗口,在MMLU测试中取得了63.7%的5-shot准确率。与之前的开源数据语言模型MAP-Neo相比,该模型在基准测试上提高了6.6个百分点,同时训练计算量减少了40%。
更重要的是,该模型的MMLU性能接近市场上领先的开源模型(开放权重但封闭数据),如Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、Google的Gemma(64.3%)和微软的Phi-3(69.9%)。
当研究人员将上下文长度扩展到8K并在同一数据集上额外进行1000亿次训练时,该模型在Core和Extended基准测试(包括HellaSwag和ARC-E等任务的平均成绩)中的表现进一步提升,但MMLU结果保持不变。
研究人员在DataComp-LM论文中指出:“我们的结果强调了数据集设计对训练语言模型的重要性,并为进一步的数据筛选研究提供了起点。”
小型但强大的模型
与DCLM-7B类似,较小的14亿参数模型(与丰田研究所联合训练,使用了2.6万亿个标记)在MMLU、Core和Extended测试中也有出色表现。在5-shot MMLU测试中,它得分为41.9%,明显高于同类其他模型,如Hugging Face最近发布的SmolLM(1.7B版本得分39.97%)、Qwen-1.5B(37.87%)和Phi-1.5B(35.90%)。
目前,较大的模型在Apple的Sample Code License下发布,而较小的模型则在Apache 2.0下发布,允许商业使用、分发和修改。此外,还有一个70亿参数模型的指令调优版本在HF库中可用。
需要注意的是,这只是早期研究,突出了数据筛选的有效性。这些模型并非用于Apple设备,可能会显示出来自测试训练数据的某些偏见或产生有害响应。