華為萬卡超節(jié)點與 AI 芯片的雙重革新:光互聯(lián)破局集群架構(gòu)
發(fā)布時間:2025-09-23 20:12:45 熱度:943
9/23/2025,光纖在線訊,近日,在華為全聯(lián)接大會2025上,華為輪值董事長徐直軍發(fā)布了一份雄心勃勃且規(guī)劃清晰的技術(shù)路線圖。高調(diào)地一口氣發(fā)布了四款最新的AI芯片進程,以及超節(jié)點方案計劃,被譽為全球最強算力超節(jié)點和集群!
此前,華為已經(jīng)發(fā)布了Cloud Matrix 384超節(jié)點,通過6912個LPO光模塊實現(xiàn)光互聯(lián)將384張GPU同時連接在一起。這次發(fā)布會上,華為稱CM384已經(jīng)累計部署300+套,服務(wù)20+客戶。華為即將推出的 Atlas 950 SuperPoD 與 Atlas 960 SuperPoD 兩款超節(jié)點,分別支持 8,000 卡與 1.5 萬卡的大規(guī)模并行計算,進一步刷新超節(jié)點的規(guī)模和算力上限,似乎已與傳統(tǒng) “集群” 概念高度趨近。
作為長期跟蹤光通信的產(chǎn)業(yè)媒體,光纖在線更關(guān)心:超節(jié)點、靈衢總線對光通信產(chǎn)業(yè)的影響有幾何? 華為的最新AI芯片又有哪些創(chuàng)新?對比英偉達的方案又如何?帶著這些問題,我們回顧了徐總的演講,并與大家分享幾個關(guān)注點。
超節(jié)點與集群的邊界探索
“超節(jié)點(SuperPod)” 這一概念由英偉達率先提出,其技術(shù)本質(zhì)是通過縱向擴展(Scale Up) 模式,將大量計算芯片緊密耦合,形成單一的高速互連域,從而高效解決大規(guī)模算力集群中芯片協(xié)同調(diào)度的關(guān)鍵難題。
徐直軍在發(fā)布會上強調(diào):超節(jié)點成為AI基礎(chǔ)設(shè)施建設(shè)新常態(tài)。
從產(chǎn)業(yè)應(yīng)用需求來看,超節(jié)點的規(guī)模升級也與全球及國內(nèi)算力需求規(guī)模相對契合。據(jù)和弦產(chǎn)研C&C調(diào)查,全球范圍內(nèi),OpenAI、微軟、xAI、Meta 等頭部科技公司已紛紛啟動超 10 萬卡規(guī)模 GPU 集群的建設(shè);而在國內(nèi),隨著 2024 年智算中心建設(shè)進入快車道,萬卡級集群的數(shù)據(jù)中心項目正加速落地,“萬卡規(guī)?!?nbsp;已成為匹配國內(nèi)當前 AI 算力需求的主流選擇。在這一點上,看起來華為新一代超節(jié)點的算力規(guī)模足以匹配時下國內(nèi)算力需求的規(guī)模。
而對比英偉達和華為,兩家公司在超節(jié)點的具體互聯(lián)方式和規(guī)模上,呈現(xiàn)出顯著的差異化特征:
? 英偉達:銅互聯(lián)為核心,光互聯(lián)為補充
英偉達的超節(jié)點(Scale Up)長期以銅互聯(lián)為核心技術(shù)方案。例如其推出的 NVL72 產(chǎn)品,便是將 72 個 GPU 集成在單個機柜內(nèi),GPU 之間通過短距離銅纜實現(xiàn)高速連接;而更高規(guī)模的 NVL576,則是通過高速 InfiniBand 或以太網(wǎng),將 8 個 NVL72 機柜進行 “橫向擴展(Scale-out)”,以光互聯(lián)方式組建為完整集群??梢娫谟ミ_的架構(gòu)中,超節(jié)點內(nèi)部以銅互聯(lián)為主,多超節(jié)點間的集群化擴展才依賴光互聯(lián)。
? 華為:全光互聯(lián),突破超節(jié)點規(guī)模邊界
華為則聚焦于以光互聯(lián)為核心的技術(shù)路線,不斷構(gòu)建規(guī)模更龐大的超節(jié)點。在發(fā)布會上,華為進一步提出 “超節(jié)點 + 集群” 的概念,持續(xù)破解中國AI算力瓶頸,且全鏈路采用光互聯(lián)技術(shù)實現(xiàn)連接。但在光纖在線看來,華為正通過擴大單個超節(jié)點的算力規(guī)模,逐步模糊傳統(tǒng) “超節(jié)點” 與 “集群” 的邊界,其打造的超節(jié)點,本質(zhì)上已具備數(shù)據(jù)中心集群的核心能力。
靈衢協(xié)議:全光互聯(lián)架構(gòu)下支持CPU與GPU協(xié)同
在超節(jié)點互聯(lián)協(xié)議上,華為推出的靈衢(UnifiedBus,簡稱 UB)新型計算系統(tǒng)架構(gòu),構(gòu)建了支持 CPU、NPU、GPU、存儲(MEM)與交換機(Switch)等多元組件資源池化與平等協(xié)同的技術(shù)底座,其核心突破在于通過全光互聯(lián)實現(xiàn)各類算力單元的高效調(diào)度。
這一架構(gòu)選擇,進一步拉大了華為與英偉達在超節(jié)點算力支持體系上的差異,也直接決定了兩者超節(jié)點在應(yīng)用場景上的核心定位。
從英偉達的技術(shù)布局來看,其超節(jié)點始終以GPU 互聯(lián)為核心,聚焦于人工智能訓練、高性能計算等算力密集型場景。無論是此前的 NVL72、NVL576,還是即將推出的NVL144,其架構(gòu)設(shè)計均通過優(yōu)化 GPU 間的互連效率提升智算能力,并未將通用計算的 CPU 納入超節(jié)點的核心集成范疇。這一設(shè)計使其超節(jié)點在純智算場景中具備極強的專項性能。
而華為自 CM384 超節(jié)點起,便確立了“GPU+CPU 協(xié)同”的技術(shù)路線。如CM384集成 384 個昇騰 910C NPU 和 192 個鯤鵬 920 CPU,通過光互聯(lián)技術(shù)實現(xiàn)兩類算力卡的高效協(xié)同。這一設(shè)計使得華為超節(jié)點既能滿足人工智能、大模型訓練等智算需求,又能支撐數(shù)據(jù)處理、業(yè)務(wù)邏輯運算等通用計算場景,適配多元化的企業(yè)級應(yīng)用需求,尤其在需要兩類算力協(xié)同的復雜業(yè)務(wù)場景中,展現(xiàn)出更強的綜合適配性。
突破內(nèi)存瓶頸:硬件升級 or 硬件協(xié)作
隨著生成式 AI 邁向規(guī)?;瘧?yīng)用,不僅術(shù)要考慮算力芯片的“峰值算力”,更要關(guān)注內(nèi)存的帶寬和功耗的約束,內(nèi)存瓶頸已經(jīng)成為制約 AI 產(chǎn)業(yè)持續(xù)發(fā)展的核心癥結(jié)。而華為和英偉達在硬件升級和技術(shù)協(xié)同方面均有策重點。
硬件升級:高帶寬內(nèi)存(HBM)成為高端算力芯片的核心競爭力。英偉達的 H100 芯片憑借4TB/s 的 HBM 帶寬長期壟斷高端市場;基于 Hopper 架構(gòu)的 H20 芯片,不僅搭載 96GB HBM3 內(nèi)存,更延續(xù)了 4.0TB/s 的高帶寬表現(xiàn),為大規(guī)模 AI 計算提供支撐。反觀華為這次發(fā)布的昇騰 950 系列,在HBM 技術(shù)上實現(xiàn)關(guān)鍵突破:不僅將自研 HBM 帶寬提升至 4TB/s,更將內(nèi)存容量擴容至 144GB。昇騰 950DT 更是搭載了 HiZQ 2.0 自研 HBM 技術(shù),采用128B 精細粒度內(nèi)存訪問設(shè)計(較上一代效率提升 4 倍),讓 AI 芯片能夠更精準、高效地處理非結(jié)構(gòu)化數(shù)據(jù),從硬件層面大幅降低數(shù)據(jù)讀取延遲。
無獨有偶,幾乎在同一時間,英偉達宣布斥資超 9 億美元吸納人工智能硬件初創(chuàng)公司 Enfabrica 的首席執(zhí)行官 Rochan Sankar 及核心團隊,并獲得該公司的核心技術(shù)授權(quán)。Enfabrica 的技術(shù)核心正是解決 AI 集群的 “協(xié)同瓶頸”—— 通過彈性內(nèi)存網(wǎng)絡(luò)系統(tǒng)(EMFASYS)優(yōu)化芯片間的數(shù)據(jù)傳輸架構(gòu),將成千上萬顆計算芯片高效集成、協(xié)同運作,為破解 AI 內(nèi)存瓶頸提供了極具創(chuàng)新性的解決方案。在 AI 集群中,若網(wǎng)絡(luò)組件的響應(yīng)速度滯后或成本效益失衡,即便單顆計算芯片性能強悍,也會因等待跨芯片數(shù)據(jù)傳輸而陷入閑置,造成巨額資源浪費。此次整合,正是英偉達為破解大規(guī)模 AI 集群 “協(xié)同效率” 難題的關(guān)鍵布局。
值得關(guān)注的是,在算力芯片的 “精度格式”層面,當前行業(yè)廣泛采用的 FP16(半精度)與 FP8(8 位精度),通過犧牲部分精度,降低存儲占用,減少數(shù)據(jù)傳輸量,換取存儲與計算效率的顯著提升。FP16 是 “精度與效率的均衡選擇”,適用于對精度有一定要求的中端推理與輕量訓練場景;FP8 則是 “效率優(yōu)先的極致優(yōu)化”,更適配超大規(guī)模 AI 推理的高并發(fā)需求。而華為自研的 HiF8 格式,在延續(xù) FP8 高效特性的基礎(chǔ)上,通過創(chuàng)新的動態(tài)點位域設(shè)計與錐形精度優(yōu)化,將精度提升至接近 FP16 的水平,實現(xiàn)了 “低開銷” 與 “高精度” 的雙重突破,為 AI 計算提供了更靈活的精度選擇。
此前,華為已經(jīng)發(fā)布了Cloud Matrix 384超節(jié)點,通過6912個LPO光模塊實現(xiàn)光互聯(lián)將384張GPU同時連接在一起。這次發(fā)布會上,華為稱CM384已經(jīng)累計部署300+套,服務(wù)20+客戶。華為即將推出的 Atlas 950 SuperPoD 與 Atlas 960 SuperPoD 兩款超節(jié)點,分別支持 8,000 卡與 1.5 萬卡的大規(guī)模并行計算,進一步刷新超節(jié)點的規(guī)模和算力上限,似乎已與傳統(tǒng) “集群” 概念高度趨近。
作為長期跟蹤光通信的產(chǎn)業(yè)媒體,光纖在線更關(guān)心:超節(jié)點、靈衢總線對光通信產(chǎn)業(yè)的影響有幾何? 華為的最新AI芯片又有哪些創(chuàng)新?對比英偉達的方案又如何?帶著這些問題,我們回顧了徐總的演講,并與大家分享幾個關(guān)注點。
超節(jié)點與集群的邊界探索
“超節(jié)點(SuperPod)” 這一概念由英偉達率先提出,其技術(shù)本質(zhì)是通過縱向擴展(Scale Up) 模式,將大量計算芯片緊密耦合,形成單一的高速互連域,從而高效解決大規(guī)模算力集群中芯片協(xié)同調(diào)度的關(guān)鍵難題。
徐直軍在發(fā)布會上強調(diào):超節(jié)點成為AI基礎(chǔ)設(shè)施建設(shè)新常態(tài)。
從產(chǎn)業(yè)應(yīng)用需求來看,超節(jié)點的規(guī)模升級也與全球及國內(nèi)算力需求規(guī)模相對契合。據(jù)和弦產(chǎn)研C&C調(diào)查,全球范圍內(nèi),OpenAI、微軟、xAI、Meta 等頭部科技公司已紛紛啟動超 10 萬卡規(guī)模 GPU 集群的建設(shè);而在國內(nèi),隨著 2024 年智算中心建設(shè)進入快車道,萬卡級集群的數(shù)據(jù)中心項目正加速落地,“萬卡規(guī)?!?nbsp;已成為匹配國內(nèi)當前 AI 算力需求的主流選擇。在這一點上,看起來華為新一代超節(jié)點的算力規(guī)模足以匹配時下國內(nèi)算力需求的規(guī)模。
而對比英偉達和華為,兩家公司在超節(jié)點的具體互聯(lián)方式和規(guī)模上,呈現(xiàn)出顯著的差異化特征:
? 英偉達:銅互聯(lián)為核心,光互聯(lián)為補充
英偉達的超節(jié)點(Scale Up)長期以銅互聯(lián)為核心技術(shù)方案。例如其推出的 NVL72 產(chǎn)品,便是將 72 個 GPU 集成在單個機柜內(nèi),GPU 之間通過短距離銅纜實現(xiàn)高速連接;而更高規(guī)模的 NVL576,則是通過高速 InfiniBand 或以太網(wǎng),將 8 個 NVL72 機柜進行 “橫向擴展(Scale-out)”,以光互聯(lián)方式組建為完整集群??梢娫谟ミ_的架構(gòu)中,超節(jié)點內(nèi)部以銅互聯(lián)為主,多超節(jié)點間的集群化擴展才依賴光互聯(lián)。
? 華為:全光互聯(lián),突破超節(jié)點規(guī)模邊界
華為則聚焦于以光互聯(lián)為核心的技術(shù)路線,不斷構(gòu)建規(guī)模更龐大的超節(jié)點。在發(fā)布會上,華為進一步提出 “超節(jié)點 + 集群” 的概念,持續(xù)破解中國AI算力瓶頸,且全鏈路采用光互聯(lián)技術(shù)實現(xiàn)連接。但在光纖在線看來,華為正通過擴大單個超節(jié)點的算力規(guī)模,逐步模糊傳統(tǒng) “超節(jié)點” 與 “集群” 的邊界,其打造的超節(jié)點,本質(zhì)上已具備數(shù)據(jù)中心集群的核心能力。
靈衢協(xié)議:全光互聯(lián)架構(gòu)下支持CPU與GPU協(xié)同
在超節(jié)點互聯(lián)協(xié)議上,華為推出的靈衢(UnifiedBus,簡稱 UB)新型計算系統(tǒng)架構(gòu),構(gòu)建了支持 CPU、NPU、GPU、存儲(MEM)與交換機(Switch)等多元組件資源池化與平等協(xié)同的技術(shù)底座,其核心突破在于通過全光互聯(lián)實現(xiàn)各類算力單元的高效調(diào)度。
這一架構(gòu)選擇,進一步拉大了華為與英偉達在超節(jié)點算力支持體系上的差異,也直接決定了兩者超節(jié)點在應(yīng)用場景上的核心定位。
從英偉達的技術(shù)布局來看,其超節(jié)點始終以GPU 互聯(lián)為核心,聚焦于人工智能訓練、高性能計算等算力密集型場景。無論是此前的 NVL72、NVL576,還是即將推出的NVL144,其架構(gòu)設(shè)計均通過優(yōu)化 GPU 間的互連效率提升智算能力,并未將通用計算的 CPU 納入超節(jié)點的核心集成范疇。這一設(shè)計使其超節(jié)點在純智算場景中具備極強的專項性能。
而華為自 CM384 超節(jié)點起,便確立了“GPU+CPU 協(xié)同”的技術(shù)路線。如CM384集成 384 個昇騰 910C NPU 和 192 個鯤鵬 920 CPU,通過光互聯(lián)技術(shù)實現(xiàn)兩類算力卡的高效協(xié)同。這一設(shè)計使得華為超節(jié)點既能滿足人工智能、大模型訓練等智算需求,又能支撐數(shù)據(jù)處理、業(yè)務(wù)邏輯運算等通用計算場景,適配多元化的企業(yè)級應(yīng)用需求,尤其在需要兩類算力協(xié)同的復雜業(yè)務(wù)場景中,展現(xiàn)出更強的綜合適配性。
突破內(nèi)存瓶頸:硬件升級 or 硬件協(xié)作
隨著生成式 AI 邁向規(guī)?;瘧?yīng)用,不僅術(shù)要考慮算力芯片的“峰值算力”,更要關(guān)注內(nèi)存的帶寬和功耗的約束,內(nèi)存瓶頸已經(jīng)成為制約 AI 產(chǎn)業(yè)持續(xù)發(fā)展的核心癥結(jié)。而華為和英偉達在硬件升級和技術(shù)協(xié)同方面均有策重點。
硬件升級:高帶寬內(nèi)存(HBM)成為高端算力芯片的核心競爭力。英偉達的 H100 芯片憑借4TB/s 的 HBM 帶寬長期壟斷高端市場;基于 Hopper 架構(gòu)的 H20 芯片,不僅搭載 96GB HBM3 內(nèi)存,更延續(xù)了 4.0TB/s 的高帶寬表現(xiàn),為大規(guī)模 AI 計算提供支撐。反觀華為這次發(fā)布的昇騰 950 系列,在HBM 技術(shù)上實現(xiàn)關(guān)鍵突破:不僅將自研 HBM 帶寬提升至 4TB/s,更將內(nèi)存容量擴容至 144GB。昇騰 950DT 更是搭載了 HiZQ 2.0 自研 HBM 技術(shù),采用128B 精細粒度內(nèi)存訪問設(shè)計(較上一代效率提升 4 倍),讓 AI 芯片能夠更精準、高效地處理非結(jié)構(gòu)化數(shù)據(jù),從硬件層面大幅降低數(shù)據(jù)讀取延遲。
無獨有偶,幾乎在同一時間,英偉達宣布斥資超 9 億美元吸納人工智能硬件初創(chuàng)公司 Enfabrica 的首席執(zhí)行官 Rochan Sankar 及核心團隊,并獲得該公司的核心技術(shù)授權(quán)。Enfabrica 的技術(shù)核心正是解決 AI 集群的 “協(xié)同瓶頸”—— 通過彈性內(nèi)存網(wǎng)絡(luò)系統(tǒng)(EMFASYS)優(yōu)化芯片間的數(shù)據(jù)傳輸架構(gòu),將成千上萬顆計算芯片高效集成、協(xié)同運作,為破解 AI 內(nèi)存瓶頸提供了極具創(chuàng)新性的解決方案。在 AI 集群中,若網(wǎng)絡(luò)組件的響應(yīng)速度滯后或成本效益失衡,即便單顆計算芯片性能強悍,也會因等待跨芯片數(shù)據(jù)傳輸而陷入閑置,造成巨額資源浪費。此次整合,正是英偉達為破解大規(guī)模 AI 集群 “協(xié)同效率” 難題的關(guān)鍵布局。
值得關(guān)注的是,在算力芯片的 “精度格式”層面,當前行業(yè)廣泛采用的 FP16(半精度)與 FP8(8 位精度),通過犧牲部分精度,降低存儲占用,減少數(shù)據(jù)傳輸量,換取存儲與計算效率的顯著提升。FP16 是 “精度與效率的均衡選擇”,適用于對精度有一定要求的中端推理與輕量訓練場景;FP8 則是 “效率優(yōu)先的極致優(yōu)化”,更適配超大規(guī)模 AI 推理的高并發(fā)需求。而華為自研的 HiF8 格式,在延續(xù) FP8 高效特性的基礎(chǔ)上,通過創(chuàng)新的動態(tài)點位域設(shè)計與錐形精度優(yōu)化,將精度提升至接近 FP16 的水平,實現(xiàn)了 “低開銷” 與 “高精度” 的雙重突破,為 AI 計算提供了更靈活的精度選擇。


