今年6月,施耐德电气关键电源业务“中国中心”热管理解决方案创新实验室(简称热管理创新实验室)在上海浦东揭牌,这也是这家法国能源巨头全球热管理三大核心研发基地之一。

AI算力狂飙,散热问题日益严峻,因此热管理也被称为“AI算力阀门”。伴随中国AI产业爆发式增长,大量算力中心的建设与改造催生了庞大的热管理市场。

“中国AI算力中心就是热管理的试金石,一旦能适应中国市场,几乎可以‘打遍天下无敌手’。”施耐德电气副总裁、关键电源业务中国中心负责人徐栋一语道出中国市场的含金量。如今,源于上海的创新“新解法”,正反向输出海外。

创新能级逐渐升级

“‘中国中心’成立之时,我们也没预料到,AI产业发展会如此迅速。最初只是聚焦本地化产品研发,如今早已依托中国AI产业链,面向全球开展热管理研发。”徐栋告诉记者,中国是名副其实的“AI前沿市场”,要做AI热管理绕不开中国。


施耐德电气热管理创新实验室。

据悉,施耐德电气的热管理技术积累可追溯到上世纪50年代,曾大量服务于日益增长的互联网服务器机房散热需求。随着中国互联网产业快速发展,施耐德电气将相关研发与制造能力迁至中国。2023年,关键电源业务“中国中心”成立,标志着部分全球研发重心向中国转移。三年后,热管理创新实验室的升级落成,使上海张江成为施耐德电气全球三大核心热管理研发基地之一。

记者在实验室看到,施耐德电气直接将整套AI算力中心搬到现场,安放在全透明地台上,所有温控管道一览无余。“一些传统机房改造项目,尤其是涉及风冷、液冷技术切换的,透明设计能让客户直观感受,沟通起来也更顺畅。”研发人员解释道,升级后的实验室面积扩容50%,能一览从部件到系统的完整测试链条。


实验室内装下了整套AI算力中心设备。

细节之处同样藏着巧思。施耐德电气将机房顶棚设计为一键自动开合,按下按钮,顶棚自动45度开启以加大通风面积,再按一次即可关闭。“别小看这个细节,机房往往有上百个顶棚通风口,运维人员逐一关窗要花半个多小时,现在一秒就能完成。”研发人员告诉记者,这类微创新,帮施耐德电气拿下了不少新客户。

徐栋透露,实验室的风冷能力提升至600千瓦级,液冷动态范围扩展到2兆瓦至3兆瓦,能够提供带载的真实运营场景,让客户在服务器上线之前,就能完成真实场景的方案验证。

值得一提的是,不远处的张江,还坐落着施耐德电气的兆瓦级UPS(不间断供电)实验室。至此,施耐德电气将数据中心的“供配电”与“热管理”两大核心系统的研发测试能力全部齐聚上海。

把芯片装进空调机柜

采访时,记者听到了一个颇为生动的现象:过去机房必须全天恒温,夏天运维人员有时会直接在机房里“孵空调”纳凉。但如今走进AI算力中心,热浪扑面,人在里面根本待不住,更别提纳凉了。

“算力的尽头是能源,能源的尽头是散热。”中科院计算技术研究所研究员张云泉坦言,过去散热并不受重视,如今却成为算力中心的关键命门。

中国信通院人工智能研究所副总工程师王蕴韬表示,宕机这类“看得见的风险”不是最棘手的,更可怕的是“看不见的风险”。比如,GPU温度一旦逼近85℃,会自动降频,算力可能直接下降20%。“运维大屏上一片绿色看着没问题,实际上都在降频运行。”

“过去,服务器机架的功率密度大致在5到20千瓦,传统数据中心按这个规格设计就够用。但AI训练和推理把整条曲线抬了上来。”徐栋表示,如今仅是一个单机柜的功率密度从50千瓦起跳,有的项目已突破120千瓦。

由此可见,散热不只是一个能耗指标,而是AI算力中心的刚需。

AI算力中心热管理一般有风冷和液冷两种技术路线。风冷依靠风扇将冷空气吹过发热元件,利用空气对流将热量散入环境。液冷则是液体吸收热量后,流经冷却塔或散热排等外部设备释放热量,再返回继续循环。

打比方说,风冷好比对着芯片吹电扇,液冷则相当于把芯片装进了空调机柜里。


施耐德电气新方案打破风冷和液冷的界限。

记者了解到,算力机柜功率在30千瓦以内,风冷尚可胜任,30千瓦以上就离不开液冷。尤其是追求极致功耗比的场景,还可以考虑浸没式液冷,也就是将整个算力机柜直接浸泡在绝缘冷却液中。

目前,液冷方案正在逐步成为AI算力中心的主流。英伟达将液冷写入高性能GPU机柜的标准设计,中国电信、阿里、字节等头部用户在新建智算园区时普遍采用风液兼容架构。

卖硬件走向卖价值

“过去是东数西算,现在是‘东Token西训练’。”王蕴韬认为,虽然中国是全球算力规模第二大国,但不少数据中心规划于互联网时代,功耗密度仅有3到5千瓦,无法适配算力中心的需求。

要想跟上AI算力的浪潮,传统数据中心升级必须提高功耗密度,热管理也成了必选项。王蕴韬坦言难度不小,“高铁更新换代,不会一夜之间把绿皮车全部淘汰,数据中心也是一个逐步提速、模块化升级的过程”。

目前,施耐德电气热管理创新实验室正在研究一套新解法,打破风冷系统与液冷系统的传统界限,将室外冷源、液冷及风冷产品整合进统一研发与验证平台,实现风液协同架构的联合设计与测试。

今年,上海云计算服务商优刻得在乌兰察布和长三角的算力中心融入了“风液兼容”理念设计,前期以高效风冷交付,液冷部分的管路和CDU(冷却液分配单元)位置则提前预留。优刻得数据中心首席架构师徐智宇表示:“作为预留能力先放在那儿,等客户送来的设备必须是冷板式或浸没式时,再把这套液冷系统唤醒。”

“中国AI算力中心就是热管理的试金石,一旦能适应中国市场,几乎可以‘打遍天下无敌手’。”徐栋感慨说,中国AI发展太快了,有时候交付周期被压缩到了极致。

比如,有些客户要求“T+3”交付,即三个月内完成设计、测试、预制到现场交付全程。“哪怕装修半个办公室也得两三个月,算力中心这么大的工程,传统上至少要半年,没想到现在两三个月就要交付。”

不过,施耐德也被“虐”出了经验。前不久,上海某知名人工智能与产业研究院项目中,施耐德电气通过客制化设计,在短短4周内交付了一套面向高功率AI训练场景的热管理系统。

但是,速度还不是终点。

如今,AI算力中心不再满足于“硬件交付”,而是升级为“全生命周期管理”,因此“AI算力阀门”也从卖硬件走向卖价值。

“AI算力中心爆发式增长,对能源科技与场景适配能力提出了前所未有的要求。”施耐德电气副总裁、中国及东亚区市场营销部负责人古月认为,能源服务提供商要尽快从单一应用场景,拓展到复杂场景的融合协同,甚至是具备全球化运营的综合实力。

施耐德热管理创新实验室正在探索这一趋势。前不久,施耐德电气与北美头部客户针对海外市场研发针对更高算力的新一代CDU产品方案,背后关键技术正是来自这一实验室。

“中国已从施耐德电气的‘创新应用地’,升级为驱动全球技术路线的‘核心策源地’,成为全球业务发展的关键助力。”徐栋说。

原标题:《“AI算力阀门”爆发式增长,法国巨头“虐”出极限速度:中国最快1个月交付》