• 实时要闻
  • 当前位置:首页 > 实时要闻
  • 1.44E算力 全球首个生产级GB300 NVL72超算集群正式上线

    2025-10-16作者:大湾区国际数据中心大会暨展览会

    10月9日,微软Azure宣布全球首个生产级NVIDIA GB300 NVL72超算集群正式上线。该集群专为OpenAI的工作负载量身定制,将加速多万亿参数模型的开发和部署。


    超级集群

    110.jpg

    GB300 NVL72集群规模宏大,集成了超过4600个NVIDIA Blackwell Ultra GPU(换算下来应该是64台GB300 NVL72,通过NVIDIA Quantum-X800 InfiniBand网络平台实现互联,形成一个统一的加速器系统。


    集群每个机架级系统(NVL72)包含72个Blackwell Ultra GPU和36个NVIDIA Grace CPU总计37TB快速内存,提供1.44 exaflops(每秒1.44亿亿次浮点运算)的FP4 Tensor Core性能

    在机架内部,第五代NVIDIA NVLink Switch实现了130 TB/s的全对全带宽,确保高效的数据传输。在网络方面,该集群采用全胖树(fat-tree)非阻塞架构,每GPU提供800 Gb/s的跨机架带宽,支持数万个GPU的无缝扩展。

    111.png


    此外,NVIDIA引入了自定义协议、集体库和SHARP v4(Scalable Hierarchical Aggregation and Reduction Protocol),进一步加速集体操作并提升有效带宽一倍。


    超级能效


    该系统还优化了功耗管理,通过集成电解电容器的电源供应单元(PSU)实现功率平滑,减少电网波动。 在稳态运行中,能量存储系统可在峰值时放电、在低谷时充电,降低峰值电网需求高达30%,并避免电压尖峰或骤降等问题

    112.jpg

    性能基准测试显示,该集群在MLPerf Inference v5.1中创下纪录,例如在6710亿参数的DeepSeek-R1推理模型上,每GPU吞吐量比NVIDIA Hopper架构高出5倍。它支持训练周期从数月缩短至数周,并处理数百万亿参数的模型,特别适用于推理模型、代理AI系统和多模态生成AI。

    113.png

    GB300 NVL72采用全技术和独立热交换器,显著降低冷却能耗,同时最小化水资源消耗。这对构建绿色、高效设施时具有启发意义。未来,微软计划将Blackwell Ultra GPU扩展至数十万个,覆盖全球AI数据中心。


    超算


    微软并没有明确该集群部署的具体地点,只是声称该集群部署在微软Azure的全球AI数据中心网络中,并强调了“全球部署”(worldwide deployments),且计划在多个地区扩展。

    微软Azure与NVIDIA的深度合作由来已久。虽然微软没有直接参与“星际之门”计划,但Azure一直持续的为OpenAI提供算力支撑服务。此次部署也是双方在硬件、系统、供应链和设施等多领域的共同成果。

    微软自身与多家行业媒体,均称呼该集群为“超级计算集群(Supercomputing Cluster)”,但有别于传统的超级计算机。

    传统超算,如“天河二号”或美国“Frontier”等,计算精度通常为常以FP64或FP32,这是因为科学计算(如气候模拟、分子动力学、流体力学)需要高精度以确保结果的准确性。如TOP500榜单的标准测试HPL(High Performance Linpack)基于FP64,强调数值稳定性。

    而GB300 NVL72集群的主打精度为FP4,单机架提供1.44 exaflops的FP4 Tensor Core性能,专为AI训练和推理优化。AI负载对精度要求低,而降低精度又能显著提升计算效率,因此新的AI芯片精度普遍采用低精度模式。

    不过,精度低并不意味着技术含量低。微软Azure的NVIDIA GB300 NVL72集群因其exaflops级性能、高并行架构、AI优化设计和先进能效管理,毫无疑问称得起是一台超级计算机,也是当前AI超算的新标杆。



    约2.65亿!168台智算服务器、49台组网交换机,2025年联通数科启动集中采购招标 深度|当前智算中心面临的最大风险 投资百亿,阿里云智能临平数据中心D楼完成通水通电 进入新建设阶段 数据中心行业亟需诞生一个“新角色” 总投资约22.28亿!嘉唐科技绿电超算中心及风电项目签约落户黑龙江通河 【重大项目竣工速递】练塘工业园区08-01地块项目(青浦云湖数据中心)完工 总投资11.9亿元 濮阳大数据中心项目主体封顶 百亿“链主”落地!长三角·平湖润泽国际信息港项目(B区)正式竣工 约2.65亿!168台智算服务器、49台组网交换机,2025年联通数科启动集中采购招标 投资26.2亿元,孝感大数据产业园一期项目开工 规划机柜约2376个!中国电信(国家)数字青海绿色大数据中心二期项目正式开工 总投资9.5亿元,湖北移动襄阳云计算中心数字信息化服务项目开工 十五五规划建议:适度超前建设新型基础设施,深入推进数字中国建设 绿色发展驱动格局重塑,数据中心迈向“全生命周期”降碳新纪元 1.44E算力 全球首个生产级GB300 NVL72超算集群正式上线 预计投资91亿美元 字节跳动巴西数据中心即将开工 总投资158亿,杭钢与阿里合作的浙江云计算数据中心南区项目即将动工 存量0.3779元/kWh!河南“136号文”承接方案征求意见 连下三城!正泰交付菲律宾三大数据中心项目,中国企业开足马力扬帆“出海” 唐河油品:打造应急电力保障安全护盾,守护数据中心电力生命线! 中标价格约32亿!华峻云计算产业园区项目(一期)EPC招标结果公示 湖北出台“算网存用”新政:重金补贴算力建设,推动存算协同发展 能耗、成本、碳排三重压:智算中心如何借“算电协同”实现破局? 微软狂砸73亿美元建“全球最强AI数据中心”,将部署10万块英伟达GB200 唐河油品:打造应急电力保障安全护盾,守护数据中心电力生命线! 中卫市数据中心集群建设刷新进度条:智算规模占全国13.6%、八大枢纽节点17%! 聚焦算力设施场景应用 发改委、能源局印发《新型储能规模化建设专项行动方案(2025—2027年)》 估值3.3亿元,成都一处T3+数据中心将被司法拍卖 英伟达一个卖GPU的,开始对数据中心建设指手画脚了 崩溃了!数据中心绿电直连、直供到底怎么选? 数据中心锂离子电池室消防自动灭火系统改造设计 从电力保障到AI未来:科士达为马来西亚国家级AI数据中心提供核心动力支持 数据中心建设流程全解析 数据中心浸没式液冷用含氟冷却液应用研究进展 不同冷却系统对液冷数据中心节能性的影响——大湾区国际数据中心 破解数据中心供电难题,驱动服务器稳定、高效运行——大湾区国际数据中心 全国首个绿电聚合直供数据中心试点项目在甘肃庆阳开工建设——大湾区国际数据中心 未来新建6栋机房!中国联通贵安智·云数据中心加速扩容——大湾区国际数据中心 数据中心电气系统比选分析——大湾区国际数据中心 AI时代的数据中心变革:算力重构、液冷革命与绿色突围——大湾区国际数据中心 数据中心基础设施的关键技术——云计算技术——大湾区国际数据中心 1GW! 全国首个绿电聚合直供数据中心试点项目正式开工——大湾区国际数据中心 AI数据中心液冷产业深度分析:技术演进、核心公司与投资机遇 南方万国数据中心REIT成功登陆上交所,上市首日涨停​,开创数字基建资产证券化新篇章​——大湾区国际数据中心 可持续数据中心之五:Google 数据中心 可持续数据中心之四:Equinix TR1 多伦多数据中心 普平数据集团(PDG)成为亚太地区首个获得超大规模 OCP Ready™ v2 认证的数据中心企业 27.5亿元!张家口新新瑞云计算数据中心项目1号楼主体封顶 数据中心的硬件构成有哪3个关键技术?——大湾区国际数据中心 不同的数据中心冷却技术及其互补性——大湾区国际数据中心

    @大湾区国际数据中心大会暨展览会 版权所有

    粤ICP备2024291375号