2024年是人工智能领域研究成果爆发的一年,尤其是在大型语言模型(Large Language Models, LLM)领域。从混合专家模型(Mixture of Experts, MoE)到低秩自适应微调方法(LoRA、DoRA),再到庞大的高质量训练数据集(FineWeb),每个月都有引人注目的研究突破。以下是2024年1月至6月在LLM领域中备受瞩目的六大研究亮点。
1月:Mixtral的混合专家(Mixture of Experts, MoE)架构
研究亮点: Mixtral 8x7B由Mistral AI团队在2024年1月发布,是一款**稀疏混合专家(Sparse Mixture of Experts, SMoE)**模型。
- 性能表现: Mixtral 8x7B在多个基准测试中表现出色,超越了Llama 2 70B和GPT-3.5,成为首批具有竞争力的开源混合专家语言模型之一。
- 核心原理: 混合专家模型由多个较小的“专家”子网络组成,每个子网络负责不同类型的任务或token,能够更高效地分配计算资源。
- 稀疏性: 在推理过程中,Mixtral 8x7B中只有8个专家网络中的1至2个被激活,显著降低了计算开销。

在Mixtral架构中,每个Transformer层的前馈网络(Feed-Forward Network, FFN)被替换为8个专家层,而在每次推理中,仅有1到2个专家被激活。以下是传统FFN的PyTorch伪代码示例:
class FeedForward(torch.nn.Module):
def __init__(self, embed_dim, coef):
super().__init__()
self.layers = nn.Sequential(
torch.nn.Linear(embed_dim, coef * embed_dim),
torch.nn.ReLU(),
torch.nn.Linear(coef * embed_dim, embed_dim),
torch.nn.Dropout(dropout)
)
def forward(self, x):
return self.layers(x)
在稀疏混合专家架构中,额外引入了路由器模块(Router Module),用于将每个token的嵌入向量分配到相应的专家层,并最终汇总各专家层的输出。
混合专家模型的现状: 尽管混合专家架构尚未完全普及,但在高效扩展LLM方面依然具有显著优势。例如,2024年12月发布的DeepSeek-V3模型便采用了混合专家架构。
2月:权重分解的低秩自适应微调(Weight-Decomposed Low-Rank Adaptation, DoRA)
研究亮点: DoRA由刘等人在2024年2月提出,是对**低秩自适应微调(Low-Rank Adaptation, LoRA)**方法的改进。
- 核心创新: 将预训练权重矩阵分解为幅度向量(Magnitude Vector, m)和方向矩阵(Directional Matrix, V),然后分别进行训练。
- 优势: DoRA在方向调整上更为灵活,能够在不增加额外参数的情况下提升性能,并减少对超参数的敏感性。

LoRA的核心思想是使用两个较小的低秩矩阵 AA 和 BB 来逼近权重更新矩阵 ΔW\Delta W,从而减少计算开销。公式如下: W′=W+ΔW=W+A⋅BW’ = W + \Delta W = W + A \cdot B
在DoRA中,首先将权重矩阵分解为幅度向量(m)和方向矩阵(V),然后仅对方向矩阵进行LoRA-style更新。

DoRA在未来的潜力: 尽管尚未被广泛采用,但DoRA在许多场景下提供了比传统LoRA更好的性能,并且对资源受限的任务更具适用性。
3月:大型语言模型持续预训练的实用技巧(Continual Pretraining of Large Language Models)
研究亮点: Simple and Scalable Strategies to Continually Pre-train Large Language Models由Ibrahim等人在2024年3月发布,提供了简单而高效的持续预训练策略。
- 关键技巧:
- 重新调整学习率: 使用与初始预训练阶段相同的学习率调度策略。
- 混合训练数据: 在新数据集中加入5%原始预训练数据,有效防止模型遗忘原有知识。
持续预训练的学习率调度示意图:

# 重新调整学习率调度
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=total_steps)
未来发展: 随着LLM预训练流程变得更加复杂,持续预训练的方法可能需要根据具体的任务和数据进行调整。
4月:DPO与PPO在大型语言模型对齐中的比较(DPO vs PPO for LLM Alignment)
研究亮点: Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study由Xu等人在2024年4月发布,深入比较了**近端策略优化(Proximal Policy Optimization, PPO)与直接偏好优化(Direct Preference Optimization, DPO)**在LLM对齐中的表现。
- PPO: 需要训练一个奖励模型,对每个生成结果进行打分。
- DPO: 直接对LLM进行分类目标优化,无需奖励模型,计算开销较小。
实验结论: PPO在处理分布外数据时表现更佳,而DPO因其实现简单,已被许多LLM应用采用。

5月:LoRA的学习与遗忘特性(LoRA Learns Less and Forgets Less)
研究亮点: LoRA Learns Less and Forgets Less由Biderman等人在2024年5月发布,分析了低秩自适应微调与全参数微调的学习与遗忘特性。
- LoRA学习较少: 在学习新知识时,全参数微调效果更好。
- LoRA遗忘较少: LoRA在保留原始知识方面表现更佳。
6月:15万亿Token的FineWeb数据集(The FineWeb Dataset)
研究亮点: FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale由Penedo等人在2024年6月发布,介绍了一个15万亿Token的高质量LLM预训练数据集。

- 数据规模: 比现有数据集(如RefinedWeb、C4)更大。
- 数据质量: 经过系统过滤和实验验证,确保数据高质量。
- 公开可用: 提供数据下载链接及再现代码库。
2024年上半年,LLM领域在架构创新、微调技术、持续预训练策略和大规模数据集等方面取得了显著进展,推动了人工智能技术迈向更高水平。