英伟达最新一代GPU芯片B100即将亮相,除了多项核心性能升级,其散热技术将从“风冷”转为“水冷”方案已成为行业焦点。这不仅是风冷转向液冷散热技术的一个重要里程碑,也将带动整个散热市场迎来全面革新,进而突破算力被散热“卡脖子”的情况。
随着AI算力和功耗不断迅速提升,业界主流观点认为,当单颗高算力芯片功率达到1000W(瓦)时,现有散热技术将会被革命,而液冷方案几乎成为必选项。这主要是因为液冷散热技术凭借其低能耗、高散热、低噪声等优势,成为兼具性价比和高效的温控手段。
显而易见,散热技术行业的高景气度,也传导至国内A股市场相关上市公司的股市及业绩表现上。近日,国内液冷概念股不仅表现强势,获国内多家机构密集调研,而且对未来预期增长信心十足。同时,国产超大规模算力液冷集群呼之欲出,将促使液冷服务器加速渗透。
转向液冷技术是里程碑
作为AI芯片行业的年度盛会,英伟达GTC 2024即将于3月18日至21日在美国圣何塞会议中心举办。据报道,黄仁勋将在会上现身公布采用Blackwell架构的最新芯片B100 GPU。B100相较采用Hopper 架构的H系列产品,整体效能均进行大幅提升,其HBM内存容量比H200芯片高出约40%,AI效能为H200 GPU两倍以上、H100的四倍以上。
除了性能“例行”升级,B100芯片的散热解决方案也成为焦点。
据悉,英伟达B100芯片的散热技术将从此前的“风冷”升级为“水冷”方案,而且未来所有GPU产品的散热技术都将转为“液冷”。英伟达CEO黄仁勋曾表示,坚信浸没式液冷技术是未来方向,并将带动整片散热市场迎来全面革新。
对于英伟达此举动机,国内散热技术厂商广州力及热管理科技(NeoGene Tech)创始人陈振贤对集微网表示,B100的功率达1000W(瓦)时需要改为液冷方案,因为既有H100(700W)的3DVC风冷散热器已不堪负荷。“这其中主要是热阻值问题。目前,风冷的热阻值约为0.05C/W,而由H100的700W增加到B100的1000W,温升就会增加15度。只有降低热阻值,才能控制芯片温度在可接受的范围。”
陈振贤称,现在业界主要几家散热大厂都在开发采用风冷方案的3D VC散热模组,加上风扇散热能力可以达到六七百瓦,但弊端是体积太过庞大。比如目前英伟达DGX H100服务器搭载了8颗H100 GPU,采用3D VC散热模组,服务器为4U尺寸。因此,对数据中心、高端运算而言,风冷3D VC散热模组将只是一个过渡性产品。
另外,散热模组厂双鸿董事长林育申曾指出,以往英特尔、AMD等厂商会将芯片的散热需求压在250-300瓦。但ChatGPT带动英伟达芯片需求暴增,散热天花板打开。H100最大散热设计功率(TDP)达700瓦,预计2024Q1量产的AMD MI300,其TDP也达到600瓦。而英伟达的新一代GPU B100,据传TDP将高达1000瓦。
显然,AI芯片的算力和功耗正在不断突破极值。在多位行业人士看来,当单颗高算力芯片功率达到1000W时,现有散热技术将会被革命。陈振贤进一步指出,当高算力芯片跟功率挂钩时,芯片功耗瓦数越来越高会使温差越来越大,进而超过芯片外壳定义的温度(通常不超过85度),这就是当前的散热瓶颈所在,因而需要设计并制作出热阻值更低的散热器。
他还称,黄仁勋所提及的浸没式液冷技术,应该是指具有水冷板的“自我漫冷式液冷服务器型式”,而非一般的浸没式液冷。“水冷板可以先将GPU的热循环带走,其余的热再藉由介电冷却液循环带走,这样整个服务器的热皆可带离数据中心,而不用开冷气。”
据了解,英伟达B100的液冷项目由代工厂英业达供应。英业达表示,今年AI服务器市场仍以英伟达产品为主流,旗下B100产品将于第四季启动量产。就服务器方面,英业达预估,自今年至未来二、三年内,都将有望每年保持双位数百分比的增长,整体表现乐观。
值得注意的是,也有业内人士指出,英伟达届时也会先推出风冷版B100,与现在的H100一样功率是700W,主要原因是为了尽快将B100推向市场参与竞争。
无论如何,在高散热需求下,液冷成为服务器温控产业的未来发展方向。华尔街分析师Hans Mosesmann直言:“液冷技术对于克服AI云端运算挑战非常关键,能为超大规模云端服务铺路。”陈振贤认为,从今年下半年开始,风冷转向液冷散热技术将是一个重要里程碑,芯片功率超过700W后就会加速液冷的发展步伐。
此外,还有行业分析称,英伟达B100芯片的散热技术升级,对整个AI服务器市场将是一场划时代的技术革新,并将推动相关产业链的迭代发展。
未来,在芯片制程难以提升的情况下,效能功耗比难以进步,单卡功率将只增不减。引领AI芯片的英伟达尚且如此,其他在自研AI芯片的谷歌、微软以及国内厂商,想追赶英伟达需要比现在更强的功率以及更优的散热,这会极大加剧市场对数据中心液冷的需求。
国内产业链获强力拉升
多重迹象显示,液冷散热技术正在AI算力井喷之下正迎来重要发展契机,这主要是因其低能耗、高散热、低噪声等优势,成为兼具性价比和高效的温控手段。
业内分析指出,早在2022年,英伟达曾推出过一个液冷版A100,功率与非液冷版一致,当时的考虑主要是绿色低碳。“在单独的测试中,Equinix(美国数据中心运营商)和英伟达均发现:采用液冷技术的数据中心工作负载可与风冷设施持平,同时消耗的能源减少了约 30%。英伟达估计,液冷数据中心的PUE可能达到1.15,远低于风冷的PUE 1.6。
“在空间相同的条件下,液冷数据中心可以实现双倍的计算量。这是由于A100 GPU仅使用一个PCIe插槽,而风冷A100 GPU需使用两个PCIe插槽。”
多年来,产业界一致在探索散热技术性能以及兼顾成本等的平衡点。财信证券表示,在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心总成本的优势将更加明显。
目前,作为全球数据中心的重要阵地,中国正在大力推进散热技术发展变革。IDC预计,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。而行业的高景气度,正在传导到A股市场相关上市公司的股市及业绩表现上。
例如近日国内液冷概念股表现强势。3月4日,液冷服务器概念股集体爆发,英维克、佳力图、科华数据、日海智能、英特科技等近10股涨停,欧陆通、强瑞技术、曙光华创、精研科技等跟涨。同时,近期机构密集调研液冷概念股,精研科技、润泽科技三天内机构来访接待量达80家以上。
另据数据统计,目前液冷服务器概念总计有21家公司公布了2023年业绩预告,其中有15家年报净利润预增长上限超50%。其中,飞龙股份2023年净利润预增长上限233%,网宿科技预增上限231%,暂居前两位。双杰电气、精研科技、爱科赛博、欧陆通等7股2023年净利润预增上限均超过100%,均显示出较为较劲的增长势头。
与此同时,国产超大规模算力液冷集群呼之欲出,液冷服务器将迎加速渗透。
据悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力达10000卡,是首个支持单池万卡的国产超大规模算力液冷集群。同时,中国移动、中国联通以及产业链企业也动作频频,促使液冷已成为产业发展大趋势。
民生证券表示,AI产业快速发展,驱动液冷服务器渗透率逐步抬升。以往受限于数据中心建设面积及环保要求,传统风冷难以满足散热需求,需要液冷技术提升服务器使用效率及稳定性。从发展趋势来看,预计到2025年液冷服务器渗透率大约保持在20%-30%的水平。
在散热技术产业链格局方面,陈振贤表示,目前全世界90%以上的散热模组厂都集中在国内,包括热导管、均温板、3D VC散熱模组等等,其中很多是中国台湾地区的上市公司,但工厂基本都分布在大陆,可以说传统的散热模组产业已经比较成熟。
他还称,在高算力芯片的影响下,散热行业从风冷转向水冷的过程中会对原有格局造成一些冲击。这是因为之前大大小小的散热模组厂太多,受到冲击再所难免。
无论如何,液冷技术的已逐渐显露为景气行业。东方财富证券指出,未来几年将进入液冷时代。从散热性能角度来说,AI的大规模发展带动算力需求提升,芯片和服务器功率逐步升级,超出风冷散热能力范畴,液冷将成为智能数据中心的唯一解决方案。
但液冷也有多种业态,浙商证券的研报进一步称,风冷散热已趋于能力天花板,机柜功率超过15kW是风冷能力天花板,液体导热性能是空气的15-25倍,升级液冷需求迫切。同时,散热越来越贴近核心发热源,预计将从房间级、机柜级、服务器级向芯片级演进。