7/31/2025,光纖在線訊,為推動算力產(chǎn)業(yè)高質(zhì)發(fā)展,ODCC(開放數(shù)據(jù)中心委員會)網(wǎng)絡(luò)工作組啟動了ETH-X超節(jié)點(diǎn)系列項(xiàng)目。該項(xiàng)目由中國信通院、騰訊聯(lián)合快手科技、京東、燧原科技、英特爾、博通、華勤技術(shù)、銳捷網(wǎng)絡(luò)、新華三、聯(lián)想、中興、云豹智能、云合智網(wǎng)、盛科通信、立訊精密、光迅科技等合作伙伴共同推動,以產(chǎn)品化樣機(jī)以及相關(guān)技術(shù)規(guī)范為目標(biāo),打造大型多GPU互聯(lián)算力集群系統(tǒng)。項(xiàng)目計(jì)劃于2025年秋季前,完成ETH-X超節(jié)點(diǎn)原型機(jī)的軟件和硬件開發(fā),并對其業(yè)務(wù)系統(tǒng)進(jìn)行綜合驗(yàn)證測試。同期,還將正式發(fā)布ETH-X超節(jié)點(diǎn)技術(shù)規(guī)范的第一個版本,即ETH-X超節(jié)點(diǎn)技術(shù)規(guī)范1.0,以此引領(lǐng)高性能計(jì)算領(lǐng)域的發(fā)展方向。
AI算力集群Scale Up新趨勢
在過去的五年間,人工智能(AI)模型計(jì)算需求量呈現(xiàn)出顯著的指數(shù)級增長態(tài)勢。比如,2017年推出的Transformer模型訓(xùn)練所需的計(jì)算量約7400PFLOPs。2023年谷歌發(fā)布的Gemini Ultra模型所需的計(jì)算量陡然躍升至50億PFLOPs[1],直觀反映了AI模型規(guī)模擴(kuò)張與計(jì)算需求激增的迅猛趨勢。隨著AI模型規(guī)模的不斷擴(kuò)大,其所需的計(jì)算量已經(jīng)遠(yuǎn)遠(yuǎn)超出了現(xiàn)有單體計(jì)算芯片的處理上限,進(jìn)而凸顯了構(gòu)建基于多節(jié)點(diǎn)、多GPU互聯(lián)系統(tǒng)的超大規(guī)模計(jì)算集群的必要性與緊迫性。
擴(kuò)展計(jì)算集群的規(guī)模有如下兩種方式:
(1)Scale Up方式是基于單個節(jié)點(diǎn)內(nèi)部多芯片的高速互聯(lián)網(wǎng)絡(luò)來構(gòu)建高算力的節(jié)點(diǎn);
(2)Scale Out方式則是通過RoCEv2/InfiniBand互聯(lián)網(wǎng)絡(luò)將多個節(jié)點(diǎn)擴(kuò)展至千個甚至萬個節(jié)點(diǎn)的規(guī)模。
圖1 AI模型對算力的需求
在Meta發(fā)布的研究論文中,提出了HBD(High Band width Domain,高帶寬域)的概念,即通過采用超高速帶寬(HB)技術(shù)互聯(lián)GPU集合,形成了一種擴(kuò)展性的網(wǎng)絡(luò)架構(gòu)。論文中引入了“HBD Size”量度指標(biāo),系統(tǒng)地衡量高帶寬域架構(gòu)內(nèi)部集成的GPU單元總量,旨在為評估該網(wǎng)絡(luò)規(guī)模、優(yōu)化資源分配及預(yù)測整體計(jì)算潛力提供了一個標(biāo)準(zhǔn)化的度量工具,進(jìn)一步推動了對大規(guī)模并行計(jì)算領(lǐng)域深入探索的邊界。
目前,如NVLink之類的超高帶寬互聯(lián)技術(shù)主要由單一企業(yè)專有維護(hù),這種封閉性在一定程度上制約了技術(shù)的持續(xù)演進(jìn)與效能優(yōu)化潛力。相比之下,ETH-X超節(jié)點(diǎn)[3]項(xiàng)目提供了一種新的探索方向,旨在基于以太網(wǎng)技術(shù),實(shí)現(xiàn)高帶寬容量,構(gòu)建一個開放且可擴(kuò)展的Scale Up超節(jié)點(diǎn)體系。
本文將重點(diǎn)分析ETH-X超節(jié)點(diǎn)擴(kuò)大Scale Up規(guī)模(HBD Size)對AI模型訓(xùn)練和推理的性能影響以及相應(yīng)的成本變化。
圖2 ETH-X超節(jié)點(diǎn)基于以太網(wǎng)技術(shù)進(jìn)行Scale up的方案
ETH-X超節(jié)點(diǎn)Scale Up性能收益定性分析
在采用并行策略訓(xùn)練大型語言模型(LLM)時,不同的并行策略有不同網(wǎng)絡(luò)流量模式,要求對Scale Out和Scale Up網(wǎng)絡(luò)進(jìn)行明確的通信負(fù)載分工,提高整個計(jì)算集群的訓(xùn)練效率。Scale Up網(wǎng)絡(luò)利用Nvlink的高帶寬能力,處理張量并行(Tensor Parallel,TP)中產(chǎn)生的大量通信數(shù)據(jù),支持訓(xùn)練過程中超大張量的高效傳輸。Scale Out網(wǎng)絡(luò)主要負(fù)責(zé)承載數(shù)據(jù)并行(Data Parallel,DP)和流水線并行(Pipeline Parallel,PP)的通信負(fù)載,若模型中包含MoE的All-to-All通信,也將通過Scale Out網(wǎng)絡(luò)[4]進(jìn)行。
目前,DGX H100集群配置的Scale Up Size為8。通過擴(kuò)容Scale Up Size,有效轉(zhuǎn)移在Scale Out模式下進(jìn)行的通信負(fù)載,提高模型訓(xùn)練效率。如DPAll Reduce和MoEAll-to-All通信等,利用Nvlink的超高帶寬進(jìn)行Scale Up通信,預(yù)期將縮短模型訓(xùn)練周期。
通過擴(kuò)展Scale Up Size,可以使更多原先在Scale Out的通信數(shù)據(jù),下圖展示了128卡集群在不同Scale Up Size下的通信差異:
(1)當(dāng)Scale Up Size為8時(圖3),所有的All-to-All通信都在Scale Out網(wǎng)絡(luò)中進(jìn)行,其通信帶寬相對較低。
(2)當(dāng)Scale Up Size擴(kuò)展到32時(圖4),部分All-to-All通信已從Scale Out通信轉(zhuǎn)變?yōu)镾cale Up通信。
圖3 Scale Up Size=8時MoE使用Scale Out網(wǎng)絡(luò)在同號卡間All-to-All
圖4 Scale Up Size=8時部分All-to-All通信轉(zhuǎn)為ScaleUp網(wǎng)絡(luò)
由于通信數(shù)據(jù)量相同,部分通信數(shù)據(jù)從Scale Out網(wǎng)絡(luò)轉(zhuǎn)變?yōu)镾cale Up網(wǎng)絡(luò),通信耗時更少。根據(jù)GPU利用率的計(jì)算公式(圖5),在通信總時間下降時,GPU利用率將會提升。因此,擴(kuò)展Scale Up Size有利于提升GPU利用率。
圖5 ScaleUp后部分GPU間帶寬提升,通信總時間下降
ETH-X超節(jié)點(diǎn)ScaleUp在訓(xùn)練場景收益 定量分析
借助企業(yè)自研的AIGC計(jì)算量化分析平臺,對不同規(guī)模參數(shù)的稠密型大模型(如Llama、GPT)在ETH-X超節(jié)點(diǎn)(以NVIDIA A800GPU性能指標(biāo)為參考)Scale Up場景的訓(xùn)練性能收益進(jìn)行了理論分析。如以Scale Up Size=8作為基準(zhǔn),分析在8K、16K及64K不同規(guī)模的ETH-X超節(jié)點(diǎn)集群中,將Scale Up Size從8擴(kuò)展至256對模型訓(xùn)練迭代時間的影響。
(1)在8KETH-X超節(jié)點(diǎn)集群規(guī)模下,將Scale Up Size從8增加到256,可以使得70B至1T規(guī)模模型的單次迭代時間降低0.2%至11.2%;
(2)在16KETH-X超節(jié)點(diǎn)集群規(guī)模下,Scale Up Size的提升(從8到256)能夠使單次迭代時間減少7%至26%;
(3)在64K集群規(guī)模下,Scale Up Size的增加(同樣從8至256)能夠?qū)崿F(xiàn)更顯著的性能提升,單次迭代時間減少幅度為31%至51%。
從整體趨勢上看,Scale Up Size擴(kuò)增到64后收益趨于平緩。同時,隨著模型參數(shù)規(guī)模增大,Scale Up Size擴(kuò)增的收益有所下降,更大規(guī)模的集群帶來的收益更大。
圖6 訓(xùn)練場景下不同參數(shù)規(guī)模的稠密型模型受Scale Up的影響(注:均基于最優(yōu)并行策略配置進(jìn)行理論評估)
由于稠密型與稀疏型大模型在模型架構(gòu)與并行計(jì)算時的通信流量模型上存在差異,因此需對不同參數(shù)規(guī)模的稀疏型大模型在Scale Up場景下的性能收益進(jìn)行分析。分析結(jié)果表明,在8KETH-X超節(jié)點(diǎn)集群規(guī)模下,將Scale Up Size從8增加到256,不同參數(shù)量模型的單次迭代時間可以減少14%至23%;在16KETH-X超節(jié)點(diǎn)集群規(guī)模下,這一提升可以使單次迭代時間減少21%至34%;而在64K集群規(guī)模下,單次迭代時間的減少幅度為37%至52%。
圖7 訓(xùn)練場景下不同參數(shù)規(guī)模的稀疏型模型受Scale Up的影響(注:均基于最優(yōu)并行策略配置進(jìn)行理論評估)
從總體趨勢來看,對于稠密型模型還是稀疏型大模型,Scale Up均能帶來顯著的訓(xùn)練效率提升。對于稠密型大模型,主要收益來源于Scale Up帶來的帶寬增加,減少了數(shù)據(jù)并行中的Allreduce通信時間和流水并行中的P2P通信時間。對于稀疏型大模型,帶寬的提升除了減少上述兩種通信時間外,顯著減少了MoE結(jié)構(gòu)中的All-to-All通信時間。
ETH-X超節(jié)點(diǎn)ScaleUp在推理場景收益定量分析
提高Scale Up Size能夠帶來模型推理性能的顯著增益。在一組配置有64張NVIDIA B200 GPU的推理實(shí)例分析中,將Scale Up Size從8增加到64,TTFT(Time To First Token)最大降幅達(dá)到了46%,同時單卡的吞吐量也提高了41%。當(dāng)推理集群擴(kuò)展到128張NVIDIA B200卡時,性能提升更加顯著。此時,Scale Up Size的增加從8到128,TTFT的最大降幅可達(dá)57%,單卡的吞吐量增幅甚至最高可達(dá)59%。另外,當(dāng)采用更低計(jì)算精度時,F(xiàn)P16精度下從8卡提升到128卡,單卡吞吐提升倍率為1.36,而在FP4精度下從8卡提升到128卡,單卡的吞吐提升倍率為1.63,凸顯了在更高效精度模式下Scale Up的巨大潛力。
圖8 推理場景下稀疏型模型受Scale Up的影響(均基于最優(yōu)并行策略配置進(jìn)行理論評估)
TTFT過程本質(zhì)上是預(yù)訓(xùn)練場景中的前向計(jì)算過程,Scale Up后通信耗時相應(yīng)減少,故TTFT總耗時減少[5]。當(dāng)使用更低的計(jì)算精度時,由于低精度計(jì)算本身占用的計(jì)算資源減少,通信耗時在TTFT總耗時中所占的比例相對增大,故在低精度下,Scale Up減少通信延遲的效益更為顯著,性能提升更為明顯。
ETH-X超節(jié)點(diǎn)在不同Scale Up規(guī)模下 成本對比分析
ETH-X超節(jié)點(diǎn)架構(gòu)相較于傳統(tǒng)的8卡節(jié)點(diǎn)設(shè)計(jì)有了顯著變化,打破了以往一體式設(shè)備的限制,將其重構(gòu)為獨(dú)立的計(jì)算節(jié)點(diǎn)與交換機(jī)節(jié)點(diǎn),并將設(shè)備尺寸從常規(guī)的6RU/8RU縮減至更為緊湊的1RU規(guī)格,而且還增加了cabletray、manifold、CDU、powershelf、busbar及HBD互聯(lián)等一系列組件,極大地增強(qiáng)了系統(tǒng)的模塊化與可擴(kuò)展性。另外,從成本構(gòu)成分析顯示,占據(jù)總成本超過80%的關(guān)鍵高價值部件,包括GPU、CPU、DDR內(nèi)存以及網(wǎng)絡(luò)接口控制器(NIC)的數(shù)量并未發(fā)生改變,確保了成本效益的最優(yōu)化。
圖9 不同ETH-X規(guī)模與傳統(tǒng)8卡節(jié)點(diǎn)成本分析
如圖所示,ETH-64相對8臺8卡節(jié)點(diǎn)設(shè)備成本僅增加6%。ETH-128相對ETH-64節(jié)點(diǎn)由于增加了柜間互聯(lián),成本稍有漲幅?;贓TH-128,ETH-256增加了多柜互聯(lián)交換機(jī)及光模塊,成本漲幅較大。
ETH-X超節(jié)點(diǎn)性能/成本綜合收益對比
基于上文Scale up的收益定量分析結(jié)果與成本影響,進(jìn)行綜合收益分析。以LLama-70B稠密型模型在64K集群下的訓(xùn)練場景為例,對比Scale Up Size為8和256時,二者的支出分別為11.04和6.85,可得在該訓(xùn)練場景下Scale up可以減少約38%的支出。
推理場景下使用上文128張NVIDIA B200卡FP4精度的分析結(jié)果,對比Scale Up Size為8和128時,二者的單位時間收益支出比分別為72.25*K和101.50*K,可以得出在該推理場景下Scale up有40.48%的提升。
因此,綜合對比ETH-X不同Scale up規(guī)模的成本與性能變化,在訓(xùn)練和推理場景下,Scale up帶來的性能提升遠(yuǎn)超過成本的增加,Scale up能夠?qū)崿F(xiàn)綜合收益的提升。
結(jié)論
ETH-X超節(jié)點(diǎn)Scale Up后性能提升的本質(zhì)主要體現(xiàn)在兩個方面:
(1)部分通信流量(如All Reduce/All-to-All)的帶寬得到了8到10倍的提升,加快了數(shù)據(jù)的傳輸速度。
(2)通過調(diào)整TP和PP的組合來減少Bubble Time,進(jìn)而優(yōu)化并行計(jì)算過程,提升整體的計(jì)算效率。
另外,Scale Up實(shí)現(xiàn)的性能收益受多個關(guān)鍵因素的影響,具體包含如下:
(1)Global batch size與mini batch size配置
(2)通信總時間在單次迭代總耗時中的占比
(3)并行策略(DP/TP/PP/EP)
(4)集群GPU規(guī)模數(shù)
(5)模型參數(shù)規(guī)模
(6)計(jì)算精度(FP16/FP8/FP4)
(7)單卡峰值浮點(diǎn)算力
基于上述Scale up性能收益的定性與定量分析表明,擴(kuò)大ETH-X超節(jié)點(diǎn)的Scale Up規(guī)模相較于使用傳統(tǒng)的8卡節(jié)點(diǎn),在硬件成本上影響不大,在大模型的訓(xùn)練與推理獲得較可觀的收益,但實(shí)際收益幅度受多種因素影響,需特定業(yè)務(wù)來精細(xì)衡量。
來源ODCC訂閱號