让开吧,Meta,开源界出现了新王者。Mistral 7B在2023年9月底发布,它不仅采用了Apache 2.0协议,还比Llama 2体积更小、性能更好,现在有传言a16z要以25亿美元估值投资它4亿美元。

当然,Mistral在发布文章中强调的97.5%的压缩率中,有75%来自Chinchilla论文,我们在播客中已经讨论过它了,现在大家也都知道了。但真正的重点是它改变了模型大小与性能之间的效率前沿:
根据Mistral的论文。注意图中的轴都没有从0开始,这夸大了差异,但这仍然是一个重大成就。

Mistral称其为“示范模型”,我们之前已经讨论过猜测,Mistral 7B可能是建立在高达8T标记的数据集上训练的800B检查点。而Llama 2只训练了2T标记。如果这种猜测是真的,再考虑到Together AI本月发布了一个新的30T标记数据集,那么“标记危机”似乎还不是问题(OpenAI和EleutherAI的领导者都认为存在这一问题)。
微调。在发布一个月后,Mistral彻底改变了开源模型的局面,最明显的是HuggingFace基于UltraChat数据集对Mistral的微调Zephyr 7B,它使用了一种名为DPO的PPO-RLHF的简单替代方案。这种微调令Mistral 7B的表现超过Llama 2 70B在MT Bench上的成绩,这对一个体积小10倍的模型来说是一个令人印象深刻的成就。Nous Research社区(在OpenAI开发者日有了高调亮相)也非常活跃,将Hermes基模型切换到了Mistral,击败了之前的Hermes 13B和70B模型。自然,自定义微调现在非常热门,Brev和WandB也在这个领域大显身手。
“开源”意味着什么? 尽管Mistral的权重确实是无BS的开源许可,但他们的数据集没有开源,虽然发表了论文,但只提供了关于滑动窗口注意力的红鲱鱼(误导信息)。我们并不真正知道它为什么表现那么好,而且研究社区似乎也没有从Mistral的发布中受益——那么,Mistral真的开源吗?还是说我们只满足于权重开源许可就算作“开源”?
6月份,OSS Capital试图定义一个开源权重基金会,但没有获得关注。实际上,公司没有任何动机公开自己的数据集,因为这只会引来诉讼和竞争。他们也没有多少动机公开模型架构和训练流程,只有在允许推理和微调时才会公开,就像Mistral和Meta做的那样。

来自“开源如何吞噬AI”的更新图表,我们难以相信这已经是一年前的事了。
斯坦福来了!来自Percy Liang的CRFM实验室的新的基础模型透明度指数(FMTI),是开源模型迈出的最重要的一步,因为它是由同行设置的开放标准:

它不是由开源倡议组织或其他监管基金会强加的二元开放/不开放模型,而是根据100个透明度点对模型和实验室进行评分,让他们可以选择透明度的程度,但使用他们比空谈开源抱怨者更在意的一件事:同行压力。
现在,开源模型运动可能有机会通过模型实验室的行动量化改进,而不是那些没有立场的人想要的开放程度,收敛到可集体接受的最大开放程度