凛冬真的将至吗？美光财报打脸大摩全球芯片股集体狂欢 1700亿市值龙头时隔近1年半再度涨停！国内外并购重组热潮再起

推理算力需求或达训练10倍英特尔旗舰CPU加码AI推理

来源：财联社2024-09-29 08:04

“可能在短期或中短期内，市场焦点会集中在一些大型通用模型上，然而对于AI来说，更广阔的应用空间实际上是在推理场景中。”近日召开的英特尔®至强®6性能核处理器发布会后，英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉在接受财联社记者采访时表示。

据财联社记者多方采访梳理获悉，当前国内大模型厂商算力成本至少七成仍用于训练端，而未来推理将成“大模型下半场”。海内外众多厂商均已盯上推理算力的蛋糕，芯片巨头英特尔服务器CPU至强（Xeon）系列重量级新品亦瞄准推理市场需求，直接带动多家服务器厂商新品于今年9月起至明年一季度密集面市，国内数据中心预期步入新发展阶段。

推理算力需求或达训练10倍供给端紧盯蛋糕

“实际上，在AI技术的实际应用落地过程中，用户感受最直观、最强烈的往往是推理环节的性能表现。虽然过去我们一直在强调大模型训练的重要性，但真正到了企业应用层面，推理的需求规模往往是训练需求的5-10倍。”站在推理算力需求视角，紫光股份（000938.SZ）旗下新华三集团计算存储产品线副总裁刘宏程向财联社记者表示。

他进一步告诉财联社记者，通用模型应用于具体行业时，往往需要结合企业数据进行私有化微调与推理。“通用大模型的投入成本过高，很多企业难以承担，而且投入与产出的时间比也较长。因此，企业更倾向于在通用模型的基础上进行微调，以满足自身特定需求，并通过推理来实现应用落地。”

财联社记者采访了解到，众多从业者认为算力需求将持续增长，对行业发展前景持乐观态度。

“我们认为能够在‘百模大战’竞争中生存下来的通用大模型数量将非常有限，可能不会超过一只手能数得过来的数量。某些参与者可能会面临巨大挑战，甚至被市场淘汰。但从整个市场的角度来看，训练规模的需求仍然非常庞大。此外，当所有的通用模型和私域模型都达到可用并准备变现的阶段时，我们预测将会有一个规模达到训练市场5到10倍的推理市场等待着我们。算力投入预计将在未来5-10年内保持高速增长。”刘宏程称。

站在供给视角，据财联社记者观察，国内炙手可热的华为、近期因启动IPO颇受关注的GPU独角兽燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等众多芯片厂商纷纷加码AI推理竞赛。与此同时，Meta、微软、OpenAI等厂商亦透露亲自下场做推理芯片的计划，其中Meta上半年已正式发布MTIA v2芯片。

财联社记者问及英特尔如何看待推理算力供给侧的蓬勃趋势，梁雅莉称，前述厂商亲自开发推理芯片，“一方面是因为需求旺盛，另一方面也是为了寻找价值和性能之间的平衡。”

她认为，推理算力需求下，硬件架构和性能固然重要，更重要的是软件的优化和整体系统的设计。软件层面，比如深度学习框架需要不断优化；整体系统设计层面，无论CPU、GPU甚至FPGA，最重要的是如何与产业的每一个具体场景深度融合。

CPU可用于10B模型推理推动服务器革新

英特尔最新至强6性能核处理器（代号Granite Rapids）的发布，使得AI推理算力赛道迎来更强劲的CPU选手。

据悉，至强6性能核采用分离式模块化设计，包括Intel 3工艺的计算模块、Intel 7工艺的I/O模块；最高配备128个X86内核，支持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路（速率达每秒24 GT），96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存。

英特尔至强6能效核处理器（代号Sierra Forest）曾于今年6月推出，针对高核心密度和规模扩展任务所需的高效能优化，而性能核处理器则面向计算密集型和AI工作负载所需的高性能进行优化。

公开资料显示，至强是英特尔为与普通个人电脑市场作区分研制推出的服务器CPU品牌，该产品线面向中高端企业级服务器、工作站市场。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立透露，现有AI服务器中大部分机头CPU仍是英特尔CPU。基于英特尔“四年五个制程节点”战略，2024年至强6系列采用了Intel 3制程工艺。

据悉，自第四代至强起，英特尔针对AI加速推出专属指令集“英特尔®高级矩阵扩展（下称AMX）”，使得CPU能够支持市面常见大模型的推理计算，第四代、第五代至强可以用于处理6B、7B甚至13B的模型，正被业内大量使用中。而在第六代至强中，AMX亦做出升级。

财联社记者于发布会现场获悉，从实际推理表现看，针对70亿参数的Llama2大模型推理，至强6性能核相比第五代至强单颗CPU性能和每瓦特性能分别有3.08倍、2.16倍提升；针对80亿参数的Llama3，则分别有2.40倍、1.68倍提升。