2024年,大型语言模型(LLM)的发展再次迎来了突破性的一年。从技术飞跃到价格崩盘,再到复杂的道德与环境问题,这一年的AI进展充满了惊喜和争议。以下是对2024年LLM领域的重要发现、关键趋势和转折点的全面回顾。
1. GPT-4的神话被打破
2023年底,GPT-4依然是AI领域不可逾越的高峰。然而,2024年,这座高峰已被多方攻克。截至今年底,有18家机构成功训练出性能超越GPT-4的模型,总计超过70个。
谷歌Gemini 1.5 Pro成为首批突破GPT-4的模型之一,拥有令人震撼的200万token上下文窗口,甚至支持视频输入,进一步拓展了LLM的应用场景。而Anthropic的Claude 3系列也表现优异,特别是Claude 3.5 Sonnet,成为不少开发者的日常首选。
今天,如果打开Chatbot Arena排行榜,GPT-4的原始版本(GPT-4-0314)已跌至70名开外,而超过它的模型名单中,包括谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、Amazon、DeepSeek、Mistral等众多科技巨头。
2. GPT-4级别的模型,现在可以在笔记本上运行
2023年的一台64GB M2 MacBook Pro,如今已经可以运行多个GPT-4级别的开源模型。
- Qwen2.5-Coder-32B:一个在笔记本上运行流畅的Apache 2.0开源编码模型。
- Llama 3.3 70B:Meta发布的高性能模型,令人惊讶地也能在本地设备上运行。
即使是移动设备,也可以运行令人印象深刻的小型LLM。例如,Llama 3.2 3B可以在iPhone上使用,虽然仅有2GB大小,但依然能够生成有趣的内容。
这些进展背后,是AI模型在训练和推理效率方面的巨大优化。
3. LLM价格崩盘:高效与竞争的双重驱动
过去一年,LLM的价格呈现了断崖式下跌:
- OpenAI的GPT-4o价格从GPT-4的**$30/百万token降至$2.50**,而GPT-4o mini更是降至**$0.15**。
- 谷歌的Gemini 1.5 Flash价格更低,仅为**$0.0375/百万token**。
这种降价不仅是竞争加剧的结果,更归功于模型推理效率的提升。
一个有趣的例子:处理个人68,000张照片并生成描述,使用Gemini 1.5 Flash仅需**$1.68**!
4. 多模态:图像普及,音频和视频初露锋芒
2024年,多模态LLM已经成为行业标准。几乎所有主要供应商都发布了图像、音频甚至视频支持的模型:
- Claude 3:支持图像输入。
- Gemini 1.5 Pro:同时支持图像、音频和视频输入。
- OpenAI GPT-4o:实现了真正的多模态处理,包括音频实时对话。
这些功能不仅扩展了LLM的应用场景,也为实时交互提供了更多可能。
5. 语音与实时摄像:科幻走进现实
2024年,AI不仅能听懂用户的语音,还能实时处理来自摄像头的视频流。
- OpenAI的Advanced Voice模式让用户可以用自然语调与ChatGPT进行流畅对话。
- 谷歌的Gemini也加入了这一竞赛,提供了类似的实时互动功能。
AI不仅能“听”,还能“看”,并以实时、多模态的方式与用户互动,将过去的科幻场景变成现实。
6. 提示驱动的应用程序生成,已成“商品化”
利用LLM进行一次性提示生成完整应用程序的能力,已经在2024年成为一项“标配”功能:
- Claude Artifacts:用户可以直接在Claude界面内使用AI生成的应用程序。
- GitHub Spark 和 Mistral Canvas:分别推出了类似的功能。
这种新型交互方式不仅让开发变得更加高效,也极大降低了技术门槛。
7. 免费使用顶级模型的时代结束了
2024年中期,用户可以免费使用Claude 3.5 Sonnet和GPT-4o。但这种“平权时代”很快结束了。
- OpenAI推出了ChatGPT Pro,月费**$200**,提供更高级别的AI服务。
- 随着推理成本的增加,未来免费访问顶级模型的机会将越来越少。
8. “AI代理”依然是个未解的迷局
尽管“AI代理”在2024年依然是热门话题,但这一概念仍未有统一定义或实际落地的杀手级应用。
- 大部分代理面临的核心问题仍然是AI的“轻信”特性。
- 无法区分真假信息的代理,难以成为可靠的工具。
“AI代理”可能需要**AGI(通用人工智能)**的真正实现,才能成为日常实用工具。
9. 自动化评估(Evals)至关重要
2024年,LLM的测试和评估框架变得前所未有的重要。
- Anthropic强调:先写测试,再优化提示。
- 评估套件的质量,直接决定了AI产品的可靠性和可用性。
10. 合成训练数据效果惊人
过去一年,大量实验证明:合成数据对于LLM训练效果显著。
- 深度学习模型使用大规模合成数据,取得了令人瞩目的成绩。
- 这一趋势减少了对原始数据的依赖,并提升了训练的可控性。
11. 环境影响:改善与恶化并存
好消息:单次推理的能耗显著降低,模型训练成本也在下降。
坏消息:全球各大科技公司正在加速建设庞大的数据中心,带来了显著的碳排放和资源消耗。
12. 知识鸿沟:技术精英与公众之间的差距
LLM技术的发展速度远超大部分人的认知水平。即使是在科技领域,很多人对Claude或Gemini的了解也相当有限。
科普与教育将是未来推动AI公平普及的重要任务。
13. 更好的批评与反思
对LLM的批评不仅有必要,而且至关重要。
- 伦理问题、环境影响、数据使用的合法性等话题需要更多的关注。
- 盲目否定AI的潜力同样是错误的。
- 技术专家有责任引导公众正确使用AI工具,而不是让AI的未来被无休止的争议所困扰。
2024年,是LLM技术走向成熟的重要一年。AI的力量已经渗透到生活的方方面面,但挑战与风险同样不可忽视。
未来属于那些能够理解、驾驭并负责任地使用AI的人。2025年,LLM的故事还将继续,我们拭目以待。