不要购买H100s。市场已经从供应短缺(每小时8美元)转变为供大于求(每小时2美元),主要原因是预留计算资源的转售、开放模型的微调,以及新基础模型公司的减少。因此,租赁H100会更加划算。
AI竞赛的简史
ChatGPT于2022年11月发布,基于A100系列构建。H100s于2023年3月面世。投资者和创业者的想法很简单:与A100相比,H100的性能提升了3倍,而价格却仅为A100的2倍。
如果你能快速部署H100,你也许能建立更大、更好的模型,甚至超越OpenAI,达到通用人工智能的水平——前提是你有足够的资本与他们竞争。
因此,数百亿美元被投资到富含GPU的AI初创公司中,希望推动这场新的技术革命。结果是……
H100需求的突然激增
市场价格迅速飙升,H100的初始租赁价格大约为每小时4.70美元,后来上涨到每小时超过8美元。许多初创公司的创始人急于训练他们的模型,以向投资者证明他们值得获得下一轮1亿美元的融资。
Nvidia在2023年的投资者演示中,向其投资者和数据中心客户推销了这个市场机会,预计H100的租赁价格可以达到每小时4美元。
对于GPU农场来说,这似乎是“免费”的钱。如果你能让那些初创公司以每小时4.70美元甚至更高的价格租用H100 GPU,回本周期不到1.5年。之后,每年每块GPU都能带来超过10万美元的现金流。
6000亿美元的投资后……
2023年的大部分时间,H100的价格似乎会一直保持在每小时4.70美元以上,除非你愿意提前支付大额预付款。
但到了2024年初,H100的价格已经降到大约每小时2.85美元。而随着更多供应商上线,我开始收到类似这样的邮件:
在2024年8月,如果你愿意在短时间内拍卖一部分H100时间(几天到几周),你可以以每小时1到2美元的价格找到H100 GPU。
我们正在见证H100价格每年下跌40%以上,特别是对于小型集群。Nvidia预计的4美元每小时的市场前景在不到1.5年内就已经瓦解。
新H100服务器的投资回报率
一个H100 SXM GPU的平均设置、维护和运营成本(即大部分资本支出)超过5万美元,不包括电力和冷却的运营支出。如果按5年的GPU寿命计算,目前的市场投资回报率如何?
对于按需租赁,价格超过每小时2.85美元可以击败股市的年化收益率。如果低于这个价格,投资回报率将低于股市。如果降到每小时1.65美元以下,投资将出现亏损。
长期预订租赁(3年以上)
很多基础设施提供商并不天真,他们在2023年AI热潮时推销3-5年的预订合同,以锁定利润。今天,价格在2.85美元以上的长期合同依然存在。
当模型创作者完成训练后,他们通常会转售集群中的计算能力,部分收回成本。这使得市场上出现了大量的计算资源转售,从而加剧了H100的经济压力。
开源模型的崛起和市场的变化
随着开源权重模型(如LLaMA3)的兴起,市场上对AI推理和微调的需求不断增加。很多企业现在发现,与其从头训练大模型,还不如微调现有的开源模型,这大大减少了H100的需求。
微调模型所需的计算资源远远少于从头训练,因此导致对大型集群的需求下降。加上大量企业选择微调开源模型,投资者对新基础模型公司的兴趣也在减少。
目前,全世界正在创建基础模型的团队不到50个,H100的需求已经显著减少。
过剩的计算资源
许多公司预订了大量H100集群用于训练模型,但后来发现微调现有模型更划算。这些未使用的计算资源现在通过“计算转售商”流入市场,如Runpod、Vast.ai等,这进一步推动了H100的价格下跌。
GPU的替代方案
在推理方面,L40S、AMD的MX300和Intel的Gaudi 3等GPU提供了价格更低的替代方案。虽然这些替代方案在大规模集群训练方面尚不成熟,但它们在小型集群微调和推理方面已经表现出色。
结论:不要购买全新的H100
除非你能获得折扣的H100,或者你有巨大的集群需求,否则投资新的H100硬件很可能会导致亏损。与其投资H100,不如选择其他投资机会,或者直接投资股票市场。