2025-11-12作者:大湾区国际数据中心大会暨展览会
· Meta的Zuckerberg(扎克伯格):“在基础设施上超支数千亿美元的风险,小于被排除在外的风险。”
· 知名半导体机构Semianalysis 的Dylan Patel透露:“OpenAI和Anthropic目前占据Nvidia GPU总出货量三分之一的份额,成为最大终端买家。”
· 《The NVIDIA Way》一书作者Tae Kim在公开媒体发文指出:“问世8年的TPU利用率仍达100%,5年前发布的A100 GPU也已经售罄。”
· Groq CEO、Google TPU创始人之一Jonathan Ross表示:“在Groq采用1年期摊销,那些沿用3-5年摊销期的做法“完全错了”。芯片不仅涉及资本支出(CapEx)的前期投资,还包括运营支出(OpEx)以及电力、水冷等配套成本。”
……
当前全球科技与算力大厂都在疯狂卷AI与算力,以上言论值得关注,智算中心运营正面临一个巨大的隐藏风险:智算中心GPU的资本支出与折旧问题。

当前主流芯片更新周期
下面是结合当前市场情况,列出的一些国内外主流芯片的更新周期(仅供参考):
但实际运营智算中心时,面临的问题要比上表呈现出来的数字复杂得多。
举个例子,以AI算力云业务的GPU投资回报周期为例:一台搭载8×NVIDIA H100 GPU服务器(成本假设为¥280万元人民币),在2023年前期算力紧缺时其租用价格一度高达每卡每小时4~8美元,若保持高利用率,十多个月即可收回成本。这使得不少运营者初期ROI(投资回报)看起来非常可观。然而随着2024年供给缓解、算力租赁价格下滑,中期租价降至每卡仅1美元/小时左右,按100%售出率测算5年总收入约¥450万,扣除设备与机房等成本(约¥560万,含服务器购置和5年运维电力等附加成本,五年反而亏损约¥110万。直线折旧法下前两年盈利、第三年开始亏损的现象表明:GPU资产的经济寿命通常小于账面折旧年限。
为弥补后期亏损,常见做法是在第3年时再投入更新一批更新一代GPU,用新设备盈利来填补旧设备的折旧亏损,进行滚动扩张,但这也潜藏风险(扩大杠杆可能隐藏亏损直至难以为继)。因此,运营方更倾向于在性能/效率显著提升的新品出现时尽早更新GPU,保证算力供给具备竞争力,并避免旧卡后期大幅贬值带来的亏损,但这样又会带来新的风险。

GPU的折旧速度比想象的要快
当前一代 GPU 的使用寿命比大多数人认为的要短,也比公司在摊销计划中预估的要短。我们正进入AI周期的下一阶段,在这个阶段,数据中心和能源供应日趋紧张,最重要的指标已经变成每瓦特产出的Token数 (tokens per watt)。需要关注的是,像Nvidia这样的芯片厂商已经转向1年的产品升级周期,这意味着每年你都能获得比上一代更强大、更节能的加速器。这与我们历史上经历的摩尔定律和芯片发展完全不同。Jensen (黄仁勋) 指出,从Hopper到Blackwell,将Token成本降低了10倍。也就是说随时未来的发展,GPU的摊销速度应该比新兴云服务商和超大规模云服务商建模的速度要快得多。在最近一期播客中,Groq的CEO Jonathan Ross,Google TPU 创始人之一就表示,Groq正采用1年期的摊销(那些采用 3-5 年摊销期的人完全错了)。对于芯片,你不仅有资本支出的前期投资,还有运行该芯片的运营支出 (OpEx),以及相关的电力和水冷成本。超大规模云服务商对GPU采用3-4年的摊销周期,而Corewave和一些新兴云服务商采用6年的Nvidia GPU折旧周期,但问题来了,如果他们的摊销周期是2年而不是6年,这些新兴云服务商的亏损会大得多,这是整个产业链中一个令人担忧的一个重要压力点。
智算中心运营的最大风险
@大湾区国际数据中心大会暨展览会 版权所有