華為萬(wàn)卡超節(jié)點(diǎn)與 AI 芯片的雙重革新：光互聯(lián)破局集群架構(gòu)

光纖在線編輯部 2025-09-23 20:12:45 文章來(lái)源：本站消息版權(quán)所有,未經(jīng)許可嚴(yán)禁轉(zhuǎn)載.

瀏覽量：

導(dǎo)讀：超節(jié)點(diǎn)、靈衢總線對(duì)光通信產(chǎn)業(yè)的影響有幾何？

9/23/2025，光纖在線訊，近日，在華為全聯(lián)接大會(huì)2025上，華為輪值董事長(zhǎng)徐直軍發(fā)布了一份雄心勃勃且規(guī)劃清晰的技術(shù)路線圖。高調(diào)地一口氣發(fā)布了四款最新的AI芯片進(jìn)程，以及超節(jié)點(diǎn)方案計(jì)劃，被譽(yù)為全球最強(qiáng)算力超節(jié)點(diǎn)和集群！

此前，華為已經(jīng)發(fā)布了Cloud Matrix 384超節(jié)點(diǎn)，通過(guò)6912個(gè)LPO光模塊實(shí)現(xiàn)光互聯(lián)將384張GPU同時(shí)連接在一起。這次發(fā)布會(huì)上，華為稱CM384已經(jīng)累計(jì)部署300+套，服務(wù)20+客戶。華為即將推出的 Atlas 950 SuperPoD 與 Atlas 960 SuperPoD 兩款超節(jié)點(diǎn)，分別支持 8,000 卡與 1.5 萬(wàn)卡的大規(guī)模并行計(jì)算，進(jìn)一步刷新超節(jié)點(diǎn)的規(guī)模和算力上限，似乎已與傳統(tǒng) “集群” 概念高度趨近。

作為長(zhǎng)期跟蹤光通信的產(chǎn)業(yè)媒體，光纖在線更關(guān)心：超節(jié)點(diǎn)、靈衢總線對(duì)光通信產(chǎn)業(yè)的影響有幾何？華為的最新AI芯片又有哪些創(chuàng)新？對(duì)比英偉達(dá)的方案又如何？帶著這些問(wèn)題，我們回顧了徐總的演講，并與大家分享幾個(gè)關(guān)注點(diǎn)。

超節(jié)點(diǎn)與集群的邊界探索
“超節(jié)點(diǎn)（SuperPod）” 這一概念由英偉達(dá)率先提出，其技術(shù)本質(zhì)是通過(guò)縱向擴(kuò)展（Scale Up）模式，將大量計(jì)算芯片緊密耦合，形成單一的高速互連域，從而高效解決大規(guī)模算力集群中芯片協(xié)同調(diào)度的關(guān)鍵難題。
徐直軍在發(fā)布會(huì)上強(qiáng)調(diào)：超節(jié)點(diǎn)成為AI基礎(chǔ)設(shè)施建設(shè)新常態(tài)。

從產(chǎn)業(yè)應(yīng)用需求來(lái)看，超節(jié)點(diǎn)的規(guī)模升級(jí)也與全球及國(guó)內(nèi)算力需求規(guī)模相對(duì)契合。據(jù)和弦產(chǎn)研C&C調(diào)查，全球范圍內(nèi)，OpenAI、微軟、xAI、Meta 等頭部科技公司已紛紛啟動(dòng)超 10 萬(wàn)卡規(guī)模 GPU 集群的建設(shè)；而在國(guó)內(nèi)，隨著 2024 年智算中心建設(shè)進(jìn)入快車道，萬(wàn)卡級(jí)集群的數(shù)據(jù)中心項(xiàng)目正加速落地，“萬(wàn)卡規(guī)模” 已成為匹配國(guó)內(nèi)當(dāng)前 AI 算力需求的主流選擇。在這一點(diǎn)上，看起來(lái)華為新一代超節(jié)點(diǎn)的算力規(guī)模足以匹配時(shí)下國(guó)內(nèi)算力需求的規(guī)模。

而對(duì)比英偉達(dá)和華為，兩家公司在超節(jié)點(diǎn)的具體互聯(lián)方式和規(guī)模上，呈現(xiàn)出顯著的差異化特征：
? 英偉達(dá)：銅互聯(lián)為核心，光互聯(lián)為補(bǔ)充
英偉達(dá)的超節(jié)點(diǎn)（Scale Up）長(zhǎng)期以銅互聯(lián)為核心技術(shù)方案。例如其推出的 NVL72 產(chǎn)品，便是將 72 個(gè) GPU 集成在單個(gè)機(jī)柜內(nèi)，GPU 之間通過(guò)短距離銅纜實(shí)現(xiàn)高速連接；而更高規(guī)模的 NVL576，則是通過(guò)高速 InfiniBand 或以太網(wǎng)，將 8 個(gè) NVL72 機(jī)柜進(jìn)行 “橫向擴(kuò)展（Scale-out）”，以光互聯(lián)方式組建為完整集群?？梢?jiàn)在英偉達(dá)的架構(gòu)中，超節(jié)點(diǎn)內(nèi)部以銅互聯(lián)為主，多超節(jié)點(diǎn)間的集群化擴(kuò)展才依賴光互聯(lián)。

? 華為：全光互聯(lián)，突破超節(jié)點(diǎn)規(guī)模邊界
華為則聚焦于以光互聯(lián)為核心的技術(shù)路線，不斷構(gòu)建規(guī)模更龐大的超節(jié)點(diǎn)。在發(fā)布會(huì)上，華為進(jìn)一步提出 “超節(jié)點(diǎn) + 集群” 的概念，持續(xù)破解中國(guó)AI算力瓶頸，且全鏈路采用光互聯(lián)技術(shù)實(shí)現(xiàn)連接。但在光纖在線看來(lái)，華為正通過(guò)擴(kuò)大單個(gè)超節(jié)點(diǎn)的算力規(guī)模，逐步模糊傳統(tǒng) “超節(jié)點(diǎn)” 與 “集群” 的邊界，其打造的超節(jié)點(diǎn)，本質(zhì)上已具備數(shù)據(jù)中心集群的核心能力。

靈衢協(xié)議：全光互聯(lián)架構(gòu)下支持CPU與GPU協(xié)同
在超節(jié)點(diǎn)互聯(lián)協(xié)議上，華為推出的靈衢（UnifiedBus，簡(jiǎn)稱 UB）新型計(jì)算系統(tǒng)架構(gòu)，構(gòu)建了支持 CPU、NPU、GPU、存儲(chǔ)（MEM）與交換機(jī)（Switch）等多元組件資源池化與平等協(xié)同的技術(shù)底座，其核心突破在于通過(guò)全光互聯(lián)實(shí)現(xiàn)各類算力單元的高效調(diào)度。

這一架構(gòu)選擇，進(jìn)一步拉大了華為與英偉達(dá)在超節(jié)點(diǎn)算力支持體系上的差異，也直接決定了兩者超節(jié)點(diǎn)在應(yīng)用場(chǎng)景上的核心定位。

從英偉達(dá)的技術(shù)布局來(lái)看，其超節(jié)點(diǎn)始終以GPU 互聯(lián)為核心，聚焦于人工智能訓(xùn)練、高性能計(jì)算等算力密集型場(chǎng)景。無(wú)論是此前的 NVL72、NVL576，還是即將推出的NVL144，其架構(gòu)設(shè)計(jì)均通過(guò)優(yōu)化 GPU 間的互連效率提升智算能力，并未將通用計(jì)算的 CPU 納入超節(jié)點(diǎn)的核心集成范疇。這一設(shè)計(jì)使其超節(jié)點(diǎn)在純智算場(chǎng)景中具備極強(qiáng)的專項(xiàng)性能。

而華為自 CM384 超節(jié)點(diǎn)起，便確立了“GPU+CPU 協(xié)同”的技術(shù)路線。如CM384集成 384 個(gè)昇騰 910C NPU 和 192 個(gè)鯤鵬 920 CPU,通過(guò)光互聯(lián)技術(shù)實(shí)現(xiàn)兩類算力卡的高效協(xié)同。這一設(shè)計(jì)使得華為超節(jié)點(diǎn)既能滿足人工智能、大模型訓(xùn)練等智算需求，又能支撐數(shù)據(jù)處理、業(yè)務(wù)邏輯運(yùn)算等通用計(jì)算場(chǎng)景，適配多元化的企業(yè)級(jí)應(yīng)用需求，尤其在需要兩類算力協(xié)同的復(fù)雜業(yè)務(wù)場(chǎng)景中，展現(xiàn)出更強(qiáng)的綜合適配性。

突破內(nèi)存瓶頸：硬件升級(jí) or 硬件協(xié)作
隨著生成式 AI 邁向規(guī)?；瘧?yīng)用，不僅術(shù)要考慮算力芯片的“峰值算力”，更要關(guān)注內(nèi)存的帶寬和功耗的約束，內(nèi)存瓶頸已經(jīng)成為制約 AI 產(chǎn)業(yè)持續(xù)發(fā)展的核心癥結(jié)。而華為和英偉達(dá)在硬件升級(jí)和技術(shù)協(xié)同方面均有策重點(diǎn)。

硬件升級(jí)：高帶寬內(nèi)存（HBM）成為高端算力芯片的核心競(jìng)爭(zhēng)力。英偉達(dá)的 H100 芯片憑借4TB/s 的 HBM 帶寬長(zhǎng)期壟斷高端市場(chǎng)；基于 Hopper 架構(gòu)的 H20 芯片，不僅搭載 96GB HBM3 內(nèi)存，更延續(xù)了 4.0TB/s 的高帶寬表現(xiàn)，為大規(guī)模 AI 計(jì)算提供支撐。反觀華為這次發(fā)布的昇騰 950 系列，在HBM 技術(shù)上實(shí)現(xiàn)關(guān)鍵突破：不僅將自研 HBM 帶寬提升至 4TB/s，更將內(nèi)存容量擴(kuò)容至 144GB。昇騰 950DT 更是搭載了 HiZQ 2.0 自研 HBM 技術(shù)，采用128B 精細(xì)粒度內(nèi)存訪問(wèn)設(shè)計(jì)（較上一代效率提升 4 倍），讓 AI 芯片能夠更精準(zhǔn)、高效地處理非結(jié)構(gòu)化數(shù)據(jù)，從硬件層面大幅降低數(shù)據(jù)讀取延遲。

無(wú)獨(dú)有偶，幾乎在同一時(shí)間，英偉達(dá)宣布斥資超 9 億美元吸納人工智能硬件初創(chuàng)公司 Enfabrica 的首席執(zhí)行官 Rochan Sankar 及核心團(tuán)隊(duì)，并獲得該公司的核心技術(shù)授權(quán)。Enfabrica 的技術(shù)核心正是解決 AI 集群的 “協(xié)同瓶頸”—— 通過(guò)彈性內(nèi)存網(wǎng)絡(luò)系統(tǒng)（EMFASYS）優(yōu)化芯片間的數(shù)據(jù)傳輸架構(gòu)，將成千上萬(wàn)顆計(jì)算芯片高效集成、協(xié)同運(yùn)作，為破解 AI 內(nèi)存瓶頸提供了極具創(chuàng)新性的解決方案。在 AI 集群中，若網(wǎng)絡(luò)組件的響應(yīng)速度滯后或成本效益失衡，即便單顆計(jì)算芯片性能強(qiáng)悍，也會(huì)因等待跨芯片數(shù)據(jù)傳輸而陷入閑置，造成巨額資源浪費(fèi)。此次整合，正是英偉達(dá)為破解大規(guī)模 AI 集群 “協(xié)同效率” 難題的關(guān)鍵布局。

值得關(guān)注的是，在算力芯片的 “精度格式”層面，當(dāng)前行業(yè)廣泛采用的 FP16（半精度）與 FP8（8 位精度），通過(guò)犧牲部分精度，降低存儲(chǔ)占用，減少數(shù)據(jù)傳輸量，換取存儲(chǔ)與計(jì)算效率的顯著提升。FP16 是 “精度與效率的均衡選擇”，適用于對(duì)精度有一定要求的中端推理與輕量訓(xùn)練場(chǎng)景；FP8 則是 “效率優(yōu)先的極致優(yōu)化”，更適配超大規(guī)模 AI 推理的高并發(fā)需求。而華為自研的 HiF8 格式，在延續(xù) FP8 高效特性的基礎(chǔ)上，通過(guò)創(chuàng)新的動(dòng)態(tài)點(diǎn)位域設(shè)計(jì)與錐形精度優(yōu)化，將精度提升至接近 FP16 的水平，實(shí)現(xiàn)了 “低開(kāi)銷” 與 “高精度” 的雙重突破，為 AI 計(jì)算提供了更靈活的精度選擇。

關(guān)鍵字：華為超節(jié)點(diǎn) 內(nèi)存

編輯：Ria