马斯克的GPU争夺战：xAI崛起与超级计算巨厂的野心

埃隆·马斯克旗下的几家公司——SpaceX、特斯拉、xAI和X（前Twitter）——都在各自的AI或高性能计算（HPC）项目中需要大量的GPU。然而，当前市场上的GPU资源远远无法满足这些雄心勃勃的需求，因此马斯克不得不在有限的GPU资源中优先考虑分配。

早在2015年，马斯克曾是OpenAI的联合创始人，但在2018年因权力斗争离开，这场斗争不仅仅关乎AI治理，更关乎推动AI模型发展的巨额投资。马斯克的离开为微软注资OpenAI铺平了道路，而当OpenAI成为生成式AI领域的领军者时，马斯克迅速在2023年3月创立了xAI，并开始为其筹集资金和GPU资源，目标是与OpenAI/微软、谷歌、亚马逊云服务、Anthropic等公司竞争。

在资金方面，xAI的募资进展顺利。2023年5月，Andreessen Horowitz、红杉资本、Fidelity、Lightspeed等投资者为xAI提供了60亿美元的B轮融资，使xAI的总筹资金额达到了64亿美元。此外，马斯克还可以依靠特斯拉为其提供的450亿美元薪酬，以便随时为xAI的GPU分配增加资金支持。不过，他也需要考虑为特斯拉、X和SpaceX的GPU需求留出足够的预算。

特斯拉的成功为马斯克提供了资金基础。2023年，特斯拉的销售额达到968亿美元，净收入为150亿美元，现金储备为291亿美元。然而，即便在这个新的“镀金时代”，马斯克的薪酬包也显得格外惊人。不过，对于马斯克来说，这些巨额资金是为了更大的目标，而特斯拉的董事会显然愿意为此付出代价。

Grok-2预计将使用2.4万张Nvidia H100 GPU进行训练，并计划在2024年8月上线。虽然xAI最初与甲骨文达成了GPU容量的合作，但由于合作破裂，马斯克转向了在田纳西州孟菲斯建设一个“计算巨厂”，计划部署10万张GPU。然而，当前工厂的电力容量只有8兆瓦，扩展到10万张GPU可能需要150兆瓦的电力供应，这将涉及复杂的审批程序。

尽管xAI的最终目标是到2025年全面扩展该超级计算机，眼下的部署可能只会在12月之前实现2.5万张GPU。但即便如此，xAI仍将拥有足够的资源来训练一个超大型AI模型。

从目前的信息来看，Supermicro正在为xAI提供水冷系统的服务器，基于八路HGX GPU板卡的架构。此外，Juniper Networks负责前端网络设备，而Nvidia的Spectrum-X设备则处理后端网络连接。至于存储部分，虽然尚未公布具体方案，但有传闻称可能由Vast Data提供大规模的存储阵列。

随着xAI不断扩展计算和网络基础设施，马斯克的AI帝国正在形成，而他将如何平衡各公司的GPU需求，仍然是未来的关键挑战。

Subscribe 订阅