字節(jié)跳動 GPU 互聯(lián)技術(shù)白皮書發(fā)布,引領(lǐng) AI 網(wǎng)絡(luò)新趨勢
發(fā)布時間:2025-05-08 09:31:43 熱度:2892
5/08/2025,光纖在線訊,近日,字節(jié)跳動發(fā)布了基于以太網(wǎng)優(yōu)化的 GPU Scale-up 互聯(lián)技術(shù)白皮書,并推出 EthLink 創(chuàng)新網(wǎng)絡(luò)方案,這一舉措在 AI 算力網(wǎng)絡(luò)領(lǐng)域引發(fā)廣泛關(guān)注,有望為 AI 集群通信帶來新的突破。
從 GPU 架構(gòu)來看,主流 GPU 架構(gòu)采用 Load-Store 語義,計(jì)算引擎專注數(shù)據(jù)處理,LSU 負(fù)責(zé)數(shù)據(jù)傳輸。為提升效率,新型 GPU 增加類似 DMA 引擎的傳輸模塊,如 NVIDIA 的 TMA,減少計(jì)算引擎在數(shù)據(jù)傳輸上的資源消耗。在 AI 集群中,Scale-up 和 Scale-out 網(wǎng)絡(luò)協(xié)同工作。Scale-up 網(wǎng)絡(luò)要求高帶寬、低時延,支持 Load/Store 語義用于同步操作;Scale-out 網(wǎng)絡(luò)則相對低帶寬、高時延,支持 RDMA 語義用于異步操作。字節(jié)跳動自研的 EthLink 協(xié)議,同時支持 Load/Store 和 RDMA 語義,這一特性使它能更好地滿足不同數(shù)據(jù)傳輸需求。
在下一代 Scale-up 互聯(lián)方案方面,字節(jié)跳動提出了一系列關(guān)鍵需求。既要支持 Load/Store 語義高效傳輸小塊數(shù)據(jù)和控制信息,又要支持 RDMA 語義高效傳輸大塊數(shù)據(jù),節(jié)省計(jì)算引擎算力。還需實(shí)現(xiàn)遠(yuǎn)端 Global Memory 和本地 Shared Memory 之間的數(shù)據(jù)傳輸,并且接口要簡潔,以適配 GPU 內(nèi)部模塊交互。此外,通過系統(tǒng)軟件保證 Cache Coherency,而非依賴網(wǎng)絡(luò)硬件,同時對相同傳輸路徑的語義操作和數(shù)據(jù)報文保序。EthLink 網(wǎng)絡(luò)方案在滿足這些需求上表現(xiàn)出色。其協(xié)議棧分為 Scale-Up 語義層和 Scale-up 網(wǎng)絡(luò)層,Scale-Up 語義層又細(xì)分 GPU 操作和 Scale-up 事務(wù)層,涵蓋 Load/Store、RDMA 語義等多種操作。在可靠性上,EthLink 采用 LLR(Link Layer Retry)和 CBFC(Credit-Based Flow Control)實(shí)現(xiàn)可靠的無損網(wǎng)絡(luò),同時優(yōu)化鏈路層報文頭減少傳輸開銷。
網(wǎng)絡(luò)拓?fù)渖希總€ GPU 服務(wù)器部署多個 EthLink 協(xié)議棧,支持 1 - 4 個以太網(wǎng)接口,GPU 服務(wù)器之間通過低時延以太網(wǎng)交換機(jī)互連,同一個 Scale-up 域最大支持 1024 個 GPU 節(jié)點(diǎn),并采用 Multi-Path 實(shí)現(xiàn)端口負(fù)載均衡。不過,這也引入了亂序問題,需要上層應(yīng)用處理。在網(wǎng)絡(luò)接口方面,EthLink 報文格式引入 RH(Reliability Header)和 OEFH(Optimized EthLink Forwarding Header)。RH 增強(qiáng)端到端可靠性,OEFH 使用更小的報文 header 提升有效負(fù)載率,甚至能取代標(biāo)準(zhǔn)以太網(wǎng)和 TCP/IP 協(xié)議棧中的部分報文頭,降低報文開銷。同時,EthLink 選擇 RS-272 這種低延遲的 FEC 方案,支持 LLR 和 CBFC 降低丟包概率和延遲,交換機(jī)與 GPU 間建立狀態(tài)反饋機(jī)制(Switch Event Notification)快速切換路徑避免丟包。
字節(jié)跳動此次發(fā)布的技術(shù)成果,展現(xiàn)了在 AI 網(wǎng)絡(luò)領(lǐng)域的深度探索和創(chuàng)新能力。EthLink 網(wǎng)絡(luò)方案有望解決當(dāng)前 AI 集群通信中的諸多痛點(diǎn),提升 GPU 之間的通信效率,為大規(guī)模 AI 訓(xùn)練和應(yīng)用提供有力支持。隨著 AI 技術(shù)不斷發(fā)展,對 GPU 算力和通信性能的要求越來越高,字節(jié)跳動的這一技術(shù)突破或許將引領(lǐng)行業(yè)新的發(fā)展方向,推動 AI 網(wǎng)絡(luò)技術(shù)的進(jìn)一步革新。
【技術(shù)備注】
Load-Store 語義:一種數(shù)據(jù)訪問方式,Load 操作從內(nèi)存讀取數(shù)據(jù)到寄存器,Store 操作將寄存器中的數(shù)據(jù)寫回內(nèi)存,常用于 CPU、GPU 等計(jì)算設(shè)備的數(shù)據(jù)處理過程。
DMA 引擎:直接內(nèi)存訪問(Direct Memory Access)引擎,可讓設(shè)備在無需 CPU 干預(yù)的情況下,直接與內(nèi)存進(jìn)行數(shù)據(jù)傳輸,減輕 CPU 負(fù)擔(dān),提升數(shù)據(jù)傳輸效率。
RDMA 語義:遠(yuǎn)程直接內(nèi)存訪問(Remote Direct Memory Access)語義,允許一臺計(jì)算機(jī)的應(yīng)用程序直接訪問另一臺計(jì)算機(jī)的內(nèi)存,無需目標(biāo)計(jì)算機(jī)的 CPU 參與,能實(shí)現(xiàn)高速數(shù)據(jù)傳輸,減少數(shù)據(jù)傳輸延遲和 CPU 開銷 。
Cache Coherency:緩存一致性,確保多個處理器或設(shè)備在訪問共享內(nèi)存時,緩存數(shù)據(jù)的一致性,避免數(shù)據(jù)不一致導(dǎo)致的錯誤。
LLR(Link Layer Retry):鏈路層重試機(jī)制,當(dāng)鏈路層傳輸出現(xiàn)錯誤時,通過重試確保數(shù)據(jù)可靠傳輸。
CBFC(Credit-Based Flow Control):基于信用的流量控制,通過分配信用值來控制數(shù)據(jù)發(fā)送方的發(fā)送速率,避免接收方因來不及處理數(shù)據(jù)而導(dǎo)致丟包。
FEC(Forward Error Correction):前向糾錯,一種數(shù)據(jù)傳輸糾錯技術(shù),發(fā)送方在數(shù)據(jù)中添加冗余信息,接收方根據(jù)這些冗余信息檢測和糾正傳輸過程中出現(xiàn)的錯誤,RS-272 是一種低延遲的 FEC 方案。
從 GPU 架構(gòu)來看,主流 GPU 架構(gòu)采用 Load-Store 語義,計(jì)算引擎專注數(shù)據(jù)處理,LSU 負(fù)責(zé)數(shù)據(jù)傳輸。為提升效率,新型 GPU 增加類似 DMA 引擎的傳輸模塊,如 NVIDIA 的 TMA,減少計(jì)算引擎在數(shù)據(jù)傳輸上的資源消耗。在 AI 集群中,Scale-up 和 Scale-out 網(wǎng)絡(luò)協(xié)同工作。Scale-up 網(wǎng)絡(luò)要求高帶寬、低時延,支持 Load/Store 語義用于同步操作;Scale-out 網(wǎng)絡(luò)則相對低帶寬、高時延,支持 RDMA 語義用于異步操作。字節(jié)跳動自研的 EthLink 協(xié)議,同時支持 Load/Store 和 RDMA 語義,這一特性使它能更好地滿足不同數(shù)據(jù)傳輸需求。
在下一代 Scale-up 互聯(lián)方案方面,字節(jié)跳動提出了一系列關(guān)鍵需求。既要支持 Load/Store 語義高效傳輸小塊數(shù)據(jù)和控制信息,又要支持 RDMA 語義高效傳輸大塊數(shù)據(jù),節(jié)省計(jì)算引擎算力。還需實(shí)現(xiàn)遠(yuǎn)端 Global Memory 和本地 Shared Memory 之間的數(shù)據(jù)傳輸,并且接口要簡潔,以適配 GPU 內(nèi)部模塊交互。此外,通過系統(tǒng)軟件保證 Cache Coherency,而非依賴網(wǎng)絡(luò)硬件,同時對相同傳輸路徑的語義操作和數(shù)據(jù)報文保序。EthLink 網(wǎng)絡(luò)方案在滿足這些需求上表現(xiàn)出色。其協(xié)議棧分為 Scale-Up 語義層和 Scale-up 網(wǎng)絡(luò)層,Scale-Up 語義層又細(xì)分 GPU 操作和 Scale-up 事務(wù)層,涵蓋 Load/Store、RDMA 語義等多種操作。在可靠性上,EthLink 采用 LLR(Link Layer Retry)和 CBFC(Credit-Based Flow Control)實(shí)現(xiàn)可靠的無損網(wǎng)絡(luò),同時優(yōu)化鏈路層報文頭減少傳輸開銷。
網(wǎng)絡(luò)拓?fù)渖希總€ GPU 服務(wù)器部署多個 EthLink 協(xié)議棧,支持 1 - 4 個以太網(wǎng)接口,GPU 服務(wù)器之間通過低時延以太網(wǎng)交換機(jī)互連,同一個 Scale-up 域最大支持 1024 個 GPU 節(jié)點(diǎn),并采用 Multi-Path 實(shí)現(xiàn)端口負(fù)載均衡。不過,這也引入了亂序問題,需要上層應(yīng)用處理。在網(wǎng)絡(luò)接口方面,EthLink 報文格式引入 RH(Reliability Header)和 OEFH(Optimized EthLink Forwarding Header)。RH 增強(qiáng)端到端可靠性,OEFH 使用更小的報文 header 提升有效負(fù)載率,甚至能取代標(biāo)準(zhǔn)以太網(wǎng)和 TCP/IP 協(xié)議棧中的部分報文頭,降低報文開銷。同時,EthLink 選擇 RS-272 這種低延遲的 FEC 方案,支持 LLR 和 CBFC 降低丟包概率和延遲,交換機(jī)與 GPU 間建立狀態(tài)反饋機(jī)制(Switch Event Notification)快速切換路徑避免丟包。
字節(jié)跳動此次發(fā)布的技術(shù)成果,展現(xiàn)了在 AI 網(wǎng)絡(luò)領(lǐng)域的深度探索和創(chuàng)新能力。EthLink 網(wǎng)絡(luò)方案有望解決當(dāng)前 AI 集群通信中的諸多痛點(diǎn),提升 GPU 之間的通信效率,為大規(guī)模 AI 訓(xùn)練和應(yīng)用提供有力支持。隨著 AI 技術(shù)不斷發(fā)展,對 GPU 算力和通信性能的要求越來越高,字節(jié)跳動的這一技術(shù)突破或許將引領(lǐng)行業(yè)新的發(fā)展方向,推動 AI 網(wǎng)絡(luò)技術(shù)的進(jìn)一步革新。
【技術(shù)備注】
Load-Store 語義:一種數(shù)據(jù)訪問方式,Load 操作從內(nèi)存讀取數(shù)據(jù)到寄存器,Store 操作將寄存器中的數(shù)據(jù)寫回內(nèi)存,常用于 CPU、GPU 等計(jì)算設(shè)備的數(shù)據(jù)處理過程。
DMA 引擎:直接內(nèi)存訪問(Direct Memory Access)引擎,可讓設(shè)備在無需 CPU 干預(yù)的情況下,直接與內(nèi)存進(jìn)行數(shù)據(jù)傳輸,減輕 CPU 負(fù)擔(dān),提升數(shù)據(jù)傳輸效率。
RDMA 語義:遠(yuǎn)程直接內(nèi)存訪問(Remote Direct Memory Access)語義,允許一臺計(jì)算機(jī)的應(yīng)用程序直接訪問另一臺計(jì)算機(jī)的內(nèi)存,無需目標(biāo)計(jì)算機(jī)的 CPU 參與,能實(shí)現(xiàn)高速數(shù)據(jù)傳輸,減少數(shù)據(jù)傳輸延遲和 CPU 開銷 。
Cache Coherency:緩存一致性,確保多個處理器或設(shè)備在訪問共享內(nèi)存時,緩存數(shù)據(jù)的一致性,避免數(shù)據(jù)不一致導(dǎo)致的錯誤。
LLR(Link Layer Retry):鏈路層重試機(jī)制,當(dāng)鏈路層傳輸出現(xiàn)錯誤時,通過重試確保數(shù)據(jù)可靠傳輸。
CBFC(Credit-Based Flow Control):基于信用的流量控制,通過分配信用值來控制數(shù)據(jù)發(fā)送方的發(fā)送速率,避免接收方因來不及處理數(shù)據(jù)而導(dǎo)致丟包。
FEC(Forward Error Correction):前向糾錯,一種數(shù)據(jù)傳輸糾錯技術(shù),發(fā)送方在數(shù)據(jù)中添加冗余信息,接收方根據(jù)這些冗余信息檢測和糾正傳輸過程中出現(xiàn)的錯誤,RS-272 是一種低延遲的 FEC 方案。


