9/23/2025,光纖在線訊,近日,在華為全聯(lián)接大會(huì)2025上,華為輪值董事長(zhǎng)徐直軍發(fā)布了一份雄心勃勃且規(guī)劃清晰的技術(shù)路線圖。高調(diào)地一口氣發(fā)布了四款最新的AI芯片進(jìn)程,以及超節(jié)點(diǎn)方案計(jì)劃,被譽(yù)為全球最強(qiáng)算力超節(jié)點(diǎn)和集群!
此前,華為已經(jīng)發(fā)布了Cloud Matrix 384超節(jié)點(diǎn),通過(guò)6912個(gè)LPO光模塊實(shí)現(xiàn)光互聯(lián)將384張GPU同時(shí)連接在一起。這次發(fā)布會(huì)上,華為稱CM384已經(jīng)累計(jì)部署300+套,服務(wù)20+客戶。華為即將推出的 Atlas 950 SuperPoD 與 Atlas 960 SuperPoD 兩款超節(jié)點(diǎn),分別支持 8,000 卡與 1.5 萬(wàn)卡的大規(guī)模并行計(jì)算,進(jìn)一步刷新超節(jié)點(diǎn)的規(guī)模和算力上限,似乎已與傳統(tǒng) “集群” 概念高度趨近。
作為長(zhǎng)期跟蹤光通信的產(chǎn)業(yè)媒體,光纖在線更關(guān)心:超節(jié)點(diǎn)、靈衢總線對(duì)光通信產(chǎn)業(yè)的影響有幾何? 華為的最新AI芯片又有哪些創(chuàng)新?對(duì)比英偉達(dá)的方案又如何?帶著這些問(wèn)題,我們回顧了徐總的演講,并與大家分享幾個(gè)關(guān)注點(diǎn)。
超節(jié)點(diǎn)與集群的邊界探索
“超節(jié)點(diǎn)(SuperPod)” 這一概念由英偉達(dá)率先提出,其技術(shù)本質(zhì)是通過(guò)縱向擴(kuò)展(Scale Up) 模式,將大量計(jì)算芯片緊密耦合,形成單一的高速互連域,從而高效解決大規(guī)模算力集群中芯片協(xié)同調(diào)度的關(guān)鍵難題。
徐直軍在發(fā)布會(huì)上強(qiáng)調(diào):超節(jié)點(diǎn)成為AI基礎(chǔ)設(shè)施建設(shè)新常態(tài)。
從產(chǎn)業(yè)應(yīng)用需求來(lái)看,超節(jié)點(diǎn)的規(guī)模升級(jí)也與全球及國(guó)內(nèi)算力需求規(guī)模相對(duì)契合。據(jù)和弦產(chǎn)研C&C調(diào)查,全球范圍內(nèi),OpenAI、微軟、xAI、Meta 等頭部科技公司已紛紛啟動(dòng)超 10 萬(wàn)卡規(guī)模 GPU 集群的建設(shè);而在國(guó)內(nèi),隨著 2024 年智算中心建設(shè)進(jìn)入快車道,萬(wàn)卡級(jí)集群的數(shù)據(jù)中心項(xiàng)目正加速落地,“萬(wàn)卡規(guī)模” 已成為匹配國(guó)內(nèi)當(dāng)前 AI 算力需求的主流選擇。在這一點(diǎn)上,看起來(lái)華為新一代超節(jié)點(diǎn)的算力規(guī)模足以匹配時(shí)下國(guó)內(nèi)算力需求的規(guī)模。
而對(duì)比英偉達(dá)和華為,兩家公司在超節(jié)點(diǎn)的具體互聯(lián)方式和規(guī)模上,呈現(xiàn)出顯著的差異化特征:
? 英偉達(dá):銅互聯(lián)為核心,光互聯(lián)為補(bǔ)充
英偉達(dá)的超節(jié)點(diǎn)(Scale Up)長(zhǎng)期以銅互聯(lián)為核心技術(shù)方案。例如其推出的 NVL72 產(chǎn)品,便是將 72 個(gè) GPU 集成在單個(gè)機(jī)柜內(nèi),GPU 之間通過(guò)短距離銅纜實(shí)現(xiàn)高速連接;而更高規(guī)模的 NVL576,則是通過(guò)高速 InfiniBand 或以太網(wǎng),將 8 個(gè) NVL72 機(jī)柜進(jìn)行 “橫向擴(kuò)展(Scale-out)”,以光互聯(lián)方式組建為完整集群??梢?jiàn)在英偉達(dá)的架構(gòu)中,超節(jié)點(diǎn)內(nèi)部以銅互聯(lián)為主,多超節(jié)點(diǎn)間的集群化擴(kuò)展才依賴光互聯(lián)。
? 華為:全光互聯(lián),突破超節(jié)點(diǎn)規(guī)模邊界
華為則聚焦于以光互聯(lián)為核心的技術(shù)路線,不斷構(gòu)建規(guī)模更龐大的超節(jié)點(diǎn)。在發(fā)布會(huì)上,華為進(jìn)一步提出 “超節(jié)點(diǎn) + 集群” 的概念,持續(xù)破解中國(guó)AI算力瓶頸,且全鏈路采用光互聯(lián)技術(shù)實(shí)現(xiàn)連接。但在光纖在線看來(lái),華為正通過(guò)擴(kuò)大單個(gè)超節(jié)點(diǎn)的算力規(guī)模,逐步模糊傳統(tǒng) “超節(jié)點(diǎn)” 與 “集群” 的邊界,其打造的超節(jié)點(diǎn),本質(zhì)上已具備數(shù)據(jù)中心集群的核心能力。
靈衢協(xié)議:全光互聯(lián)架構(gòu)下支持CPU與GPU協(xié)同
在超節(jié)點(diǎn)互聯(lián)協(xié)議上,華為推出的靈衢(UnifiedBus,簡(jiǎn)稱 UB)新型計(jì)算系統(tǒng)架構(gòu),構(gòu)建了支持 CPU、NPU、GPU、存儲(chǔ)(MEM)與交換機(jī)(Switch)等多元組件資源池化與平等協(xié)同的技術(shù)底座,其核心突破在于通過(guò)全光互聯(lián)實(shí)現(xiàn)各類算力單元的高效調(diào)度。
這一架構(gòu)選擇,進(jìn)一步拉大了華為與英偉達(dá)在超節(jié)點(diǎn)算力支持體系上的差異,也直接決定了兩者超節(jié)點(diǎn)在應(yīng)用場(chǎng)景上的核心定位。
從英偉達(dá)的技術(shù)布局來(lái)看,其超節(jié)點(diǎn)始終以GPU 互聯(lián)為核心,聚焦于人工智能訓(xùn)練、高性能計(jì)算等算力密集型場(chǎng)景。無(wú)論是此前的 NVL72、NVL576,還是即將推出的NVL144,其架構(gòu)設(shè)計(jì)均通過(guò)優(yōu)化 GPU 間的互連效率提升智算能力,并未將通用計(jì)算的 CPU 納入超節(jié)點(diǎn)的核心集成范疇。這一設(shè)計(jì)使其超節(jié)點(diǎn)在純智算場(chǎng)景中具備極強(qiáng)的專項(xiàng)性能。
而華為自 CM384 超節(jié)點(diǎn)起,便確立了“GPU+CPU 協(xié)同”的技術(shù)路線。如CM384集成 384 個(gè)昇騰 910C NPU 和 192 個(gè)鯤鵬 920 CPU,通過(guò)光互聯(lián)技術(shù)實(shí)現(xiàn)兩類算力卡的高效協(xié)同。這一設(shè)計(jì)使得華為超節(jié)點(diǎn)既能滿足人工智能、大模型訓(xùn)練等智算需求,又能支撐數(shù)據(jù)處理、業(yè)務(wù)邏輯運(yùn)算等通用計(jì)算場(chǎng)景,適配多元化的企業(yè)級(jí)應(yīng)用需求,尤其在需要兩類算力協(xié)同的復(fù)雜業(yè)務(wù)場(chǎng)景中,展現(xiàn)出更強(qiáng)的綜合適配性。
突破內(nèi)存瓶頸:硬件升級(jí) or 硬件協(xié)作
隨著生成式 AI 邁向規(guī)?;瘧?yīng)用,不僅術(shù)要考慮算力芯片的“峰值算力”,更要關(guān)注內(nèi)存的帶寬和功耗的約束,內(nèi)存瓶頸已經(jīng)成為制約 AI 產(chǎn)業(yè)持續(xù)發(fā)展的核心癥結(jié)。而華為和英偉達(dá)在硬件升級(jí)和技術(shù)協(xié)同方面均有策重點(diǎn)。
硬件升級(jí):高帶寬內(nèi)存(HBM)成為高端算力芯片的核心競(jìng)爭(zhēng)力。英偉達(dá)的 H100 芯片憑借4TB/s 的 HBM 帶寬長(zhǎng)期壟斷高端市場(chǎng);基于 Hopper 架構(gòu)的 H20 芯片,不僅搭載 96GB HBM3 內(nèi)存,更延續(xù)了 4.0TB/s 的高帶寬表現(xiàn),為大規(guī)模 AI 計(jì)算提供支撐。反觀華為這次發(fā)布的昇騰 950 系列,在HBM 技術(shù)上實(shí)現(xiàn)關(guān)鍵突破:不僅將自研 HBM 帶寬提升至 4TB/s,更將內(nèi)存容量擴(kuò)容至 144GB。昇騰 950DT 更是搭載了 HiZQ 2.0 自研 HBM 技術(shù),采用128B 精細(xì)粒度內(nèi)存訪問(wèn)設(shè)計(jì)(較上一代效率提升 4 倍),讓 AI 芯片能夠更精準(zhǔn)、高效地處理非結(jié)構(gòu)化數(shù)據(jù),從硬件層面大幅降低數(shù)據(jù)讀取延遲。
無(wú)獨(dú)有偶,幾乎在同一時(shí)間,英偉達(dá)宣布斥資超 9 億美元吸納人工智能硬件初創(chuàng)公司 Enfabrica 的首席執(zhí)行官 Rochan Sankar 及核心團(tuán)隊(duì),并獲得該公司的核心技術(shù)授權(quán)。Enfabrica 的技術(shù)核心正是解決 AI 集群的 “協(xié)同瓶頸”—— 通過(guò)彈性內(nèi)存網(wǎng)絡(luò)系統(tǒng)(EMFASYS)優(yōu)化芯片間的數(shù)據(jù)傳輸架構(gòu),將成千上萬(wàn)顆計(jì)算芯片高效集成、協(xié)同運(yùn)作,為破解 AI 內(nèi)存瓶頸提供了極具創(chuàng)新性的解決方案。在 AI 集群中,若網(wǎng)絡(luò)組件的響應(yīng)速度滯后或成本效益失衡,即便單顆計(jì)算芯片性能強(qiáng)悍,也會(huì)因等待跨芯片數(shù)據(jù)傳輸而陷入閑置,造成巨額資源浪費(fèi)。此次整合,正是英偉達(dá)為破解大規(guī)模 AI 集群 “協(xié)同效率” 難題的關(guān)鍵布局。
值得關(guān)注的是,在算力芯片的 “精度格式”層面,當(dāng)前行業(yè)廣泛采用的 FP16(半精度)與 FP8(8 位精度),通過(guò)犧牲部分精度,降低存儲(chǔ)占用,減少數(shù)據(jù)傳輸量,換取存儲(chǔ)與計(jì)算效率的顯著提升。FP16 是 “精度與效率的均衡選擇”,適用于對(duì)精度有一定要求的中端推理與輕量訓(xùn)練場(chǎng)景;FP8 則是 “效率優(yōu)先的極致優(yōu)化”,更適配超大規(guī)模 AI 推理的高并發(fā)需求。而華為自研的 HiF8 格式,在延續(xù) FP8 高效特性的基礎(chǔ)上,通過(guò)創(chuàng)新的動(dòng)態(tài)點(diǎn)位域設(shè)計(jì)與錐形精度優(yōu)化,將精度提升至接近 FP16 的水平,實(shí)現(xiàn)了 “低開(kāi)銷” 與 “高精度” 的雙重突破,為 AI 計(jì)算提供了更靈活的精度選擇。