埃隆·马斯克旗下的几家公司——SpaceX、特斯拉、xAI和X(前Twitter)——都在各自的AI或高性能计算(HPC)项目中需要大量的GPU。然而,当前市场上的GPU资源远远无法满足这些雄心勃勃的需求,因此马斯克不得不在有限的GPU资源中优先考虑分配。
早在2015年,马斯克曾是OpenAI的联合创始人,但在2018年因权力斗争离开,这场斗争不仅仅关乎AI治理,更关乎推动AI模型发展的巨额投资。马斯克的离开为微软注资OpenAI铺平了道路,而当OpenAI成为生成式AI领域的领军者时,马斯克迅速在2023年3月创立了xAI,并开始为其筹集资金和GPU资源,目标是与OpenAI/微软、谷歌、亚马逊云服务、Anthropic等公司竞争。
在资金方面,xAI的募资进展顺利。2023年5月,Andreessen Horowitz、红杉资本、Fidelity、Lightspeed等投资者为xAI提供了60亿美元的B轮融资,使xAI的总筹资金额达到了64亿美元。此外,马斯克还可以依靠特斯拉为其提供的450亿美元薪酬,以便随时为xAI的GPU分配增加资金支持。不过,他也需要考虑为特斯拉、X和SpaceX的GPU需求留出足够的预算。
特斯拉的成功为马斯克提供了资金基础。2023年,特斯拉的销售额达到968亿美元,净收入为150亿美元,现金储备为291亿美元。然而,即便在这个新的“镀金时代”,马斯克的薪酬包也显得格外惊人。不过,对于马斯克来说,这些巨额资金是为了更大的目标,而特斯拉的董事会显然愿意为此付出代价。
Grok-2预计将使用2.4万张Nvidia H100 GPU进行训练,并计划在2024年8月上线。虽然xAI最初与甲骨文达成了GPU容量的合作,但由于合作破裂,马斯克转向了在田纳西州孟菲斯建设一个“计算巨厂”,计划部署10万张GPU。然而,当前工厂的电力容量只有8兆瓦,扩展到10万张GPU可能需要150兆瓦的电力供应,这将涉及复杂的审批程序。

尽管xAI的最终目标是到2025年全面扩展该超级计算机,眼下的部署可能只会在12月之前实现2.5万张GPU。但即便如此,xAI仍将拥有足够的资源来训练一个超大型AI模型。
从目前的信息来看,Supermicro正在为xAI提供水冷系统的服务器,基于八路HGX GPU板卡的架构。此外,Juniper Networks负责前端网络设备,而Nvidia的Spectrum-X设备则处理后端网络连接。至于存储部分,虽然尚未公布具体方案,但有传闻称可能由Vast Data提供大规模的存储阵列。

随着xAI不断扩展计算和网络基础设施,马斯克的AI帝国正在形成,而他将如何平衡各公司的GPU需求,仍然是未来的关键挑战。