7/25/2025,光纖在線訊,6月16-18日在蘇州舉辦的CFCF2025光連接大會上,華信咨詢設(shè)計研究院有限公司智信院副總工程師燕曉穎發(fā)表題為《國內(nèi)外算力超節(jié)點新生態(tài)》的主旨演講,詳細(xì)地介紹了英偉達(dá)GB200 NVL72與華為CloudMatrix CM384在功耗、容量、帶寬、連接方式等不同指標(biāo)下的對比,以及相應(yīng)的AI智算中心使用超節(jié)點的部署,引發(fā)了與會者的廣泛關(guān)注。隨著人工智能的飛速發(fā)展,智算超節(jié)點作為算力基礎(chǔ)設(shè)施的關(guān)鍵組成部分,其技術(shù)水平直接影響著 AI 應(yīng)用的效率與發(fā)展?jié)摿Α??
燕總首先回顧了AI智算網(wǎng)絡(luò)的架構(gòu),通常分為前端的計算網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),后端就是加速網(wǎng)絡(luò)的Scale-out和Scale-up網(wǎng)絡(luò)。超節(jié)點是通過 Scale Up(縱向擴(kuò)展,增加單節(jié)點資源數(shù)量)構(gòu)建大規(guī)模GPU集群。并以國內(nèi)外在H100落地過程中,國內(nèi)廠商普遍去掉了基于NVLink的整機(jī)互聯(lián),只能依賴Scale-out網(wǎng)絡(luò)橫向擴(kuò)展這一現(xiàn)狀對比了國外很多基于GH200的架構(gòu)。
接下來他介紹了英偉達(dá)推出的 GB200 NVL72 超節(jié)點,該超節(jié)點包含 36 個 CPU 和 72 個 Blackwell GPU,提供完整的一體水冷散熱方案,其內(nèi)部使用的電纜長度累計接近 2 英里,共有 5000 條獨(dú)立電纜,通過高度復(fù)雜且精密的設(shè)計,實現(xiàn)了大規(guī)模 GPU 之間的高效協(xié)同工作,為大規(guī)模 AI 訓(xùn)練和推理提供了強(qiáng)大的硬件支持。微軟、亞馬遜等科技巨頭已紛紛下單采購,足以證明其在市場上的受歡迎程度和技術(shù)領(lǐng)先性。
華為的 CloudMatrix 384(CM384)同樣展現(xiàn)出了卓越的技術(shù)實力,為中國智算超節(jié)點領(lǐng)域樹立了新的標(biāo)桿。CM384 于 2025 年 4 月 10 日由華為云正式發(fā)布,并已在蕪湖數(shù)據(jù)中心規(guī)模上線。它基于 384 顆昇騰芯片構(gòu)建,通過全互連拓?fù)浼軜?gòu)實現(xiàn)芯片間高效協(xié)同,尤其是它獨(dú)創(chuàng)的靈衢總線系統(tǒng),在內(nèi)存容量和帶寬方面,優(yōu)勢明顯,為大規(guī)模 AI 訓(xùn)練和推理提供了更堅實的硬件基礎(chǔ)。
演講中針對NVL72和CM384這兩種設(shè)備在機(jī)房內(nèi)的實際安裝做了介紹,如英偉達(dá)宣布供電采用HVDC ±400V進(jìn)行供電,未來或?qū)⒄麄€儲能設(shè)備一體化。當(dāng)前有廠商在每個NVL72旁邊裝了一個SideCar做UPS供電,英偉達(dá)為了解決GB200 設(shè)備電壓會不穩(wěn)定的問題,引入了超級電容,極大地改善了電壓的穩(wěn)定性,保證了設(shè)備在高負(fù)載條件下的穩(wěn)定運(yùn)行。美國的一些運(yùn)營商在部署GB200時要留近一半的空間用來做供電,但在國內(nèi)會是怎樣?仍有待商榷。而CM384為了降低高能耗,引入了內(nèi)部水冷自循環(huán)系統(tǒng),這也是一個獨(dú)特的創(chuàng)新。
最后燕總介紹了華信設(shè)計院完成過的多個超大規(guī)模異構(gòu)算力園區(qū),包括政府云,樞紐節(jié)點服務(wù)商、CSP云服務(wù)商的數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計。如上海商湯科技智能計算中心,提供可研設(shè)計,完成AI基礎(chǔ)設(shè)施建設(shè)規(guī)劃;電信天翼云杭州大數(shù)據(jù)基地智算中心,規(guī)劃可研設(shè)計,完成AI基礎(chǔ)設(shè)施+AI算力,采用風(fēng)液混合設(shè)計,打造智算行業(yè)內(nèi)標(biāo)桿性綠色園區(qū);以及樂清港區(qū)端對端自動駕駛項目,基于已有的自力中心,采用云端算力中心,感知端采用車路協(xié)同方式,賦能AI自動駕駛應(yīng)用。