2024年AI研究亮点回顾（上半年）：从混合专家模型到FineWeb数据集

2024年是人工智能领域研究成果爆发的一年，尤其是在大型语言模型（Large Language Models, LLM）领域。从混合专家模型（Mixture of Experts, MoE）到低秩自适应微调方法（LoRA、DoRA），再到庞大的高质量训练数据集（FineWeb），每个月都有引人注目的研究突破。以下是2024年1月至6月在LLM领域中备受瞩目的六大研究亮点。

1月：Mixtral的混合专家（Mixture of Experts, MoE）架构
研究亮点： Mixtral 8x7B由Mistral AI团队在2024年1月发布，是一款**稀疏混合专家（Sparse Mixture of Experts, SMoE）**模型。

性能表现： Mixtral 8x7B在多个基准测试中表现出色，超越了Llama 2 70B和GPT-3.5，成为首批具有竞争力的开源混合专家语言模型之一。
核心原理： 混合专家模型由多个较小的“专家”子网络组成，每个子网络负责不同类型的任务或token，能够更高效地分配计算资源。
稀疏性： 在推理过程中，Mixtral 8x7B中只有8个专家网络中的1至2个被激活，显著降低了计算开销。

在Mixtral架构中，每个Transformer层的前馈网络（Feed-Forward Network, FFN）被替换为8个专家层，而在每次推理中，仅有1到2个专家被激活。以下是传统FFN的PyTorch伪代码示例：

class FeedForward(torch.nn.Module):
    def __init__(self, embed_dim, coef):
        super().__init__()
        self.layers = nn.Sequential(
            torch.nn.Linear(embed_dim, coef * embed_dim),
            torch.nn.ReLU(),
            torch.nn.Linear(coef * embed_dim, embed_dim),
            torch.nn.Dropout(dropout)
        )

    def forward(self, x):
        return self.layers(x)

在稀疏混合专家架构中，额外引入了路由器模块（Router Module），用于将每个token的嵌入向量分配到相应的专家层，并最终汇总各专家层的输出。

混合专家模型的现状： 尽管混合专家架构尚未完全普及，但在高效扩展LLM方面依然具有显著优势。例如，2024年12月发布的DeepSeek-V3模型便采用了混合专家架构。

2月：权重分解的低秩自适应微调（Weight-Decomposed Low-Rank Adaptation, DoRA）
研究亮点： DoRA由刘等人在2024年2月提出，是对**低秩自适应微调（Low-Rank Adaptation, LoRA）**方法的改进。

核心创新： 将预训练权重矩阵分解为幅度向量（Magnitude Vector, m）和方向矩阵（Directional Matrix, V），然后分别进行训练。
优势： DoRA在方向调整上更为灵活，能够在不增加额外参数的情况下提升性能，并减少对超参数的敏感性。

LoRA的核心思想是使用两个较小的低秩矩阵 AA 和 BB 来逼近权重更新矩阵 ΔW\Delta W，从而减少计算开销。公式如下： W′=W+ΔW=W+A⋅BW’ = W + \Delta W = W + A \cdot B

在DoRA中，首先将权重矩阵分解为幅度向量（m）和方向矩阵（V），然后仅对方向矩阵进行LoRA-style更新。

DoRA在未来的潜力： 尽管尚未被广泛采用，但DoRA在许多场景下提供了比传统LoRA更好的性能，并且对资源受限的任务更具适用性。

3月：大型语言模型持续预训练的实用技巧（Continual Pretraining of Large Language Models）
研究亮点： Simple and Scalable Strategies to Continually Pre-train Large Language Models由Ibrahim等人在2024年3月发布，提供了简单而高效的持续预训练策略。

关键技巧：
- 重新调整学习率： 使用与初始预训练阶段相同的学习率调度策略。
- 混合训练数据： 在新数据集中加入5%原始预训练数据，有效防止模型遗忘原有知识。

持续预训练的学习率调度示意图：

# 重新调整学习率调度
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=total_steps)

未来发展： 随着LLM预训练流程变得更加复杂，持续预训练的方法可能需要根据具体的任务和数据进行调整。

4月：DPO与PPO在大型语言模型对齐中的比较（DPO vs PPO for LLM Alignment）
研究亮点： Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study由Xu等人在2024年4月发布，深入比较了**近端策略优化（Proximal Policy Optimization, PPO）与直接偏好优化（Direct Preference Optimization, DPO）**在LLM对齐中的表现。

PPO： 需要训练一个奖励模型，对每个生成结果进行打分。
DPO： 直接对LLM进行分类目标优化，无需奖励模型，计算开销较小。

实验结论： PPO在处理分布外数据时表现更佳，而DPO因其实现简单，已被许多LLM应用采用。

5月：LoRA的学习与遗忘特性（LoRA Learns Less and Forgets Less）
研究亮点： LoRA Learns Less and Forgets Less由Biderman等人在2024年5月发布，分析了低秩自适应微调与全参数微调的学习与遗忘特性。

LoRA学习较少： 在学习新知识时，全参数微调效果更好。
LoRA遗忘较少： LoRA在保留原始知识方面表现更佳。

6月：15万亿Token的FineWeb数据集（The FineWeb Dataset）
研究亮点： FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale由Penedo等人在2024年6月发布，介绍了一个15万亿Token的高质量LLM预训练数据集。

数据规模： 比现有数据集（如RefinedWeb、C4）更大。
数据质量： 经过系统过滤和实验验证，确保数据高质量。
公开可用： 提供数据下载链接及再现代码库。

2024年上半年，LLM领域在架构创新、微调技术、持续预训练策略和大规模数据集等方面取得了显著进展，推动了人工智能技术迈向更高水平。

Subscribe 订阅