華為首次線下展出昇騰384超節(jié)點
發(fā)布時間:2025-07-28 11:47:18 熱度:1057
7/28/2025,光纖在線訊,7月26日,2025世界人工智能大會(WAIC)在上海世博中心啟幕,華為首次線下展出昇騰384超節(jié)點,即Atlas 900 A3 SuperPoD,該產(chǎn)品基于超節(jié)點架構(gòu),通過總線技術(shù)實現(xiàn)384個NPU之間的大帶寬低時延互聯(lián),解決集群內(nèi)計算、存儲等各資源之間的通信瓶頸。
通過系統(tǒng)工程的優(yōu)化,實現(xiàn)資源的高效調(diào)度,讓超節(jié)點像一臺計算機一樣工作。
 
在今年5月的鯤鵬昇騰開發(fā)者大會上,華為推出了昇騰超節(jié)點(CloudMatrix 384),成功實現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。昇騰超節(jié)點具備超大帶寬、超低時延、超強性能的三大優(yōu)勢,包括多款訓(xùn)練和推理產(chǎn)品,基于超節(jié)點創(chuàng)新架構(gòu),更好的滿足模型訓(xùn)練和推理對低時延,大帶寬,長穩(wěn)可靠的要求。
 
 
 
 
 
本月初,華為云官微通過一段視頻展示了CloudMatrix 384超節(jié)點算力集群的威力——
384顆昇騰NPU(昇騰910C)+192顆鯤鵬CPU全對等互聯(lián),形成一臺“超級AI服務(wù)器”;
業(yè)界最大單卡推理吞吐量——2300Tokens/s;
業(yè)界最大集群算力——16萬卡,萬卡線性度高達95%;
云上確定性運維-40天長穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)。
華為云表示,新一代昇騰AI云服務(wù),是最適合大模型應(yīng)用的算力服務(wù)。
簡單來說,華為CloudMatrix并非簡單的“堆卡”,而是通過高帶寬全對等互聯(lián)(Peer-to-Peer)來設(shè)計,這也是CloudMatrix 384硬件架構(gòu)的一大創(chuàng)新。
傳統(tǒng)的AI集群中,CPU相當(dāng)于公司領(lǐng)導(dǎo)的角色,NPU等其它硬件更像是下屬,數(shù)據(jù)傳輸?shù)倪^程中就需要CPU審批和簽字,效率就會大打折扣。
但在CloudMatrix384中,CPU和NPU等硬件更像是一個扁平化管理的團隊,它們之間的地位比較平等,直接通過UB網(wǎng)絡(luò)通信直接對話,效率自然就上來了。
今年4月份,國際知名半導(dǎo)體研究和咨詢機構(gòu)SemiAnalysis發(fā)布專題報道稱,華為云最新推出的AI算力集群解決方案CloudMatrix 384(簡稱CM384)憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計與全棧技術(shù)創(chuàng)新,在多項關(guān)鍵指標(biāo)上實現(xiàn)對英偉達旗艦產(chǎn)品GB200 NVL72的超越,標(biāo)志著中國在人工智能基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)里程碑式突破。
據(jù)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構(gòu)建,通過全互連拓撲架構(gòu)實現(xiàn)芯片間高效協(xié)同,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢,總內(nèi)存容量超出英偉達方案3.6倍,內(nèi)存帶寬也達到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。
 
(圖片引自SemiAnalysis報道)
報道分析稱,盡管單顆昇騰芯片性能約為英偉達Blackwell架構(gòu)GPU的三分之一,但華為通過規(guī)?;到y(tǒng)設(shè)計,成功實現(xiàn)整體算力躍升,并在超大規(guī)模模型訓(xùn)練、實時推理等場景中展現(xiàn)更強競爭力。
SemiAnalysis也指出,華為的工程優(yōu)勢不僅體現(xiàn)在芯片層面,更在于系統(tǒng)級的創(chuàng)新,包括網(wǎng)絡(luò)架構(gòu)、光學(xué)互聯(lián)和軟件優(yōu)化,使得CM384能夠充分發(fā)揮集群算力,滿足超大規(guī)模AI計算需求。
此次華為云CloudMatrix 384的發(fā)布,標(biāo)志著中國在AI計算系統(tǒng)領(lǐng)域已具備與國際巨頭正面競爭的實力。
SemiAnalysis在報道中特別指出,華為的規(guī)?;鉀Q方案“領(lǐng)先于英偉達和AMD目前市場上的產(chǎn)品一代”,并認(rèn)為中國在AI基礎(chǔ)設(shè)施上的突破將對全球AI產(chǎn)業(yè)格局產(chǎn)生深遠影響。
出處:快科技
   通過系統(tǒng)工程的優(yōu)化,實現(xiàn)資源的高效調(diào)度,讓超節(jié)點像一臺計算機一樣工作。
 
在今年5月的鯤鵬昇騰開發(fā)者大會上,華為推出了昇騰超節(jié)點(CloudMatrix 384),成功實現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。昇騰超節(jié)點具備超大帶寬、超低時延、超強性能的三大優(yōu)勢,包括多款訓(xùn)練和推理產(chǎn)品,基于超節(jié)點創(chuàng)新架構(gòu),更好的滿足模型訓(xùn)練和推理對低時延,大帶寬,長穩(wěn)可靠的要求。
 
 
 
 
 
本月初,華為云官微通過一段視頻展示了CloudMatrix 384超節(jié)點算力集群的威力——
384顆昇騰NPU(昇騰910C)+192顆鯤鵬CPU全對等互聯(lián),形成一臺“超級AI服務(wù)器”;
業(yè)界最大單卡推理吞吐量——2300Tokens/s;
業(yè)界最大集群算力——16萬卡,萬卡線性度高達95%;
云上確定性運維-40天長穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)。
華為云表示,新一代昇騰AI云服務(wù),是最適合大模型應(yīng)用的算力服務(wù)。
簡單來說,華為CloudMatrix并非簡單的“堆卡”,而是通過高帶寬全對等互聯(lián)(Peer-to-Peer)來設(shè)計,這也是CloudMatrix 384硬件架構(gòu)的一大創(chuàng)新。
傳統(tǒng)的AI集群中,CPU相當(dāng)于公司領(lǐng)導(dǎo)的角色,NPU等其它硬件更像是下屬,數(shù)據(jù)傳輸?shù)倪^程中就需要CPU審批和簽字,效率就會大打折扣。
但在CloudMatrix384中,CPU和NPU等硬件更像是一個扁平化管理的團隊,它們之間的地位比較平等,直接通過UB網(wǎng)絡(luò)通信直接對話,效率自然就上來了。
今年4月份,國際知名半導(dǎo)體研究和咨詢機構(gòu)SemiAnalysis發(fā)布專題報道稱,華為云最新推出的AI算力集群解決方案CloudMatrix 384(簡稱CM384)憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計與全棧技術(shù)創(chuàng)新,在多項關(guān)鍵指標(biāo)上實現(xiàn)對英偉達旗艦產(chǎn)品GB200 NVL72的超越,標(biāo)志著中國在人工智能基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)里程碑式突破。
據(jù)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構(gòu)建,通過全互連拓撲架構(gòu)實現(xiàn)芯片間高效協(xié)同,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢,總內(nèi)存容量超出英偉達方案3.6倍,內(nèi)存帶寬也達到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。
 
(圖片引自SemiAnalysis報道)
報道分析稱,盡管單顆昇騰芯片性能約為英偉達Blackwell架構(gòu)GPU的三分之一,但華為通過規(guī)?;到y(tǒng)設(shè)計,成功實現(xiàn)整體算力躍升,并在超大規(guī)模模型訓(xùn)練、實時推理等場景中展現(xiàn)更強競爭力。
SemiAnalysis也指出,華為的工程優(yōu)勢不僅體現(xiàn)在芯片層面,更在于系統(tǒng)級的創(chuàng)新,包括網(wǎng)絡(luò)架構(gòu)、光學(xué)互聯(lián)和軟件優(yōu)化,使得CM384能夠充分發(fā)揮集群算力,滿足超大規(guī)模AI計算需求。
此次華為云CloudMatrix 384的發(fā)布,標(biāo)志著中國在AI計算系統(tǒng)領(lǐng)域已具備與國際巨頭正面競爭的實力。
SemiAnalysis在報道中特別指出,華為的規(guī)?;鉀Q方案“領(lǐng)先于英偉達和AMD目前市場上的產(chǎn)品一代”,并認(rèn)為中國在AI基礎(chǔ)設(shè)施上的突破將對全球AI產(chǎn)業(yè)格局產(chǎn)生深遠影響。
出處:快科技


