【文/观察者网专栏作者 心智观察所】
当徐直军站在2025年华为全联接大会的舞台上,宣布Atlas 950超节点支持8192张昇腾卡、总算力达到8E FLOPS时,台下响起的掌声或许意味着中国AI产业一个重要拐点的到来。这不仅仅是一次产品发布,更像是华为在经历DeepSeek冲击后的一次战略反击——用技术创新回应质疑,用开放生态对抗封锁。
在全球AI算力竞赛日趋白热化的当下,华为选择了一条与众不同的道路:不再单纯追赶英伟达的单卡性能,而是通过革命性的“超节点”架构,试图在万卡级互联技术上实现弯道超车。这背后折射的,是中美科技博弈进入新阶段的深层逻辑——当先进制程工艺受限时,如何通过系统性创新突破算力瓶颈,成为决定未来AI话语权的关键变量。
技术突破的三重维度:从芯片到架构的全栈创新
华为此次发布的昇腾950系列芯片,最引人注目的技术亮点在于对多种低精度数据格式的全面支持。相比前代产品,950系列不仅支持业界标准的FP8、MXFP8、MXFP4格式,更重要的是推出了自研的HiF8格式——在保持FP8高效性的同时,精度无限接近FP16。
这一技术路线的选择并非偶然。在先进制程工艺受限的背景下,通过降低数值精度来提升算力密度,成为华为绕过制程限制的重要策略。HiF8格式的推出,实际上是华为在算法优化与硬件设计之间找到的一个巧妙平衡点:既能显著提升推理吞吐,又能保证模型精度不受明显影响。
更值得关注的是,华为首次在昇腾芯片中引入了SIMD/SIMT新同构设计。这种创新架构允许同一个计算单元既能像流水线一样处理“大块”向量数据,又能灵活处理“碎片化”数据。这种设计哲学的转变,反映了华为对AI计算模式演进趋势的深刻理解——随着模型复杂度不断提升,对灵活性和效率的要求将同等重要。
在内存技术方面,华为同样展现出了令人印象深刻的系统性思维。针对不同应用场景的特殊需求,华为自研了两种HBM技术:面向推理Prefill阶段的低成本HiBL 1.0,以及面向训练和Decode阶段的高性能HiZQ 2.0。
这种“一芯两用”的设计理念,实际上是对传统“一刀切”芯片设计模式的颠覆。通过将同一个die与不同规格的自研HBM合封,华为实现了在成本和性能之间的精确平衡。这不仅能够降低客户的整体拥有成本,更重要的是体现了华为在供应链自主可控方面的战略考量。
如果说前两个层面的创新更多体现在硬件优化上,那么“灵衢”(UnifiedBus)协议的推出,则代表了华为在系统架构层面的根本性突破。
传统的GPU集群方案面临着两个根本性挑战:长距离高可靠互联,以及大带宽低时延传输。华为通过在互联协议的每一层都引入高可靠机制,在光路引入百纳秒级故障检测,重新定义光器件和互联芯片,实现了光互联可靠性提升100倍,互联距离超过200米。
更令人惊叹的是,华为声称Atlas 950超节点的互联带宽达到16PB/s——这个数字超过了当前全球互联网峰值带宽的10倍。这意味着华为不仅在技术指标上实现了突破,更在工程实现上达到了前所未有的复杂度。
战略选择的深层逻辑:为什么是超节点?
华为选择超节点技术路线,根本原因在于对自身技术约束的清醒认识。
徐直军在发言中明确提到:“中国半导体制造工艺将在相当长时间处于落后状态。”在这种约束下,单纯追求单芯片性能的提升空间有限,而通过系统级创新实现整体算力突破,成为更为现实的选择。
超节点架构的核心价值在于,它能够将数千乃至上万颗芯片整合为一个逻辑上的“超级计算机”。这种架构创新不仅能够充分发挥每颗芯片的计算潜力,更重要的是通过优化的互联协议,最大程度地降低了通信开销和延迟。
随着大模型参数规模不断攀升,从千亿级向万亿级发展,传统的单卡或小规模集群方案越来越难以满足训练需求。华为推出的Atlas 950超节点支持8192卡,Atlas 960超节点支持15488卡,直接瞄准了未来大模型训练的核心需求。
特别是在推理场景中,随着Agent技术的快速发展,输入上下文长度呈指数级增长,Prefill阶段的计算需求急剧上升。华为针对这一趋势,专门设计了Ascend 950PR芯片,配合低成本HiBL 1.0内存,实现了成本和性能的最优平衡。
华为宣布开放灵衢2.0技术规范,这一决策背后蕴含着深刻的生态建设考量。在英伟达CUDA生态占据绝对主导地位的情况下,华为选择开放核心技术,实际上是在构建一个以自己为中心的新生态圈。
这种开放策略的风险和收益并存。一方面,开放技术规范能够吸引更多合作伙伴参与,加速技术迭代和应用落地;另一方面,也存在核心技术外流的风险。但在当前的市场环境下,封闭的生态很难与英伟达正面竞争,开放或许是华为的最优选择。