苹果公司长期以来将其生成式AI努力集中于移动端,但最近发布的M4芯片为AI技术的发展开辟了新的可能性。无论是最新的Mac Mini还是MacBook Pro,这些搭载M4芯片的设备现在可以运行业界最强大的开源大型语言模型(LLM),如Meta的Llama-3.1 405B、Nvidia的Nemotron 70B以及阿里巴巴的Qwen 2.5 Coder-32B。
Exo Labs的突破性进展
总部位于迪拜的Exo Labs由Alex Cheema创立,致力于通过开源分布式计算技术“让AI更民主化”。Cheema最近在社交平台X上分享了他的成果:通过连接4台Mac Mini M4和1台MacBook Pro M4 Max,他成功运行了Qwen 2.5 Coder-32B模型,而这套设备的总成本约为5000美元,仅为一台Nvidia H100 GPU价格的六分之一。
Cheema认为,这种本地运行AI模型的方式不仅更具成本效益,还能显著提升隐私和安全性。“通过本地设备运行AI,可以完全控制数据和任务流程,避免云端泄露的风险,”他在接受采访时表示。
M4芯片的性能优势
苹果M4芯片凭借其超强的单线程性能和低功耗设计,成为AI任务处理的理想选择。Cheema的团队通过M4芯片组成功实现:
- Qwen 2.5 Coder-32B:18 tokens/秒
- Nemotron 70B:8 tokens/秒
即便是更早的Mac硬件也表现不俗。例如,使用两台MacBook Pro M3运行Llama 3.1-405B,达到了5 tokens/秒的速度。这些结果表明,本地化的AI训练和推理工作流不再依赖昂贵的云基础设施。
对于预算敏感型企业和高度监管行业,Exo Labs的解决方案提供了一种经济高效且安全的选择。
分布式计算背后的理念
Cheema的创业灵感源于个人经历。他发现,传统的单设备AI任务运行效率低下。为了加速他的机器学习研究,他尝试连接朋友的旧设备并开发了分布式系统来分配任务。然而,这一过程面临的带宽问题让他意识到需要更高效的分布式计算工具。
最终,Cheema和联合创始人Mohamed “Mo” Baioumy开发了名为Exo的软件工具,并于2024年7月以开源形式发布在GitHub上,受GNU通用公共许可证保护,允许商业用途。
自发布以来,Exo在GitHub上的受欢迎程度不断上升,并获得了私人投资者的资金支持。
推动本地AI技术的未来
为帮助更多用户探索分布式AI计算的潜力,Exo Labs计划于下周推出一个免费基准测试网站,提供硬件配置的性能比较,帮助用户根据需求选择合适的解决方案。
Cheema强调,这些基准测试基于真实使用情况,而非理论估算,能够为AI开发者提供更清晰的指导。
他总结道:“我们的目标是通过展示可复制的测试设置,鼓励更多创新,让每个人都能更轻松地进入AI领域。”
无论是个人开发者还是企业,Exo Labs的技术都为那些希望在本地运行LLM的用户提供了一条高效、安全且经济的路径。