字節(jié)跳動 GPU 互聯(lián)技術(shù)白皮書發(fā)布，引領(lǐng) AI 網(wǎng)絡(luò)新趨勢

發(fā)布時間：2025-05-08 09:31:43 熱度：2892

5/08/2025，光纖在線訊，近日，字節(jié)跳動發(fā)布了基于以太網(wǎng)優(yōu)化的 GPU Scale-up 互聯(lián)技術(shù)白皮書，并推出 EthLink 創(chuàng)新網(wǎng)絡(luò)方案，這一舉措在 AI 算力網(wǎng)絡(luò)領(lǐng)域引發(fā)廣泛關(guān)注，有望為 AI 集群通信帶來新的突破。

從 GPU 架構(gòu)來看，主流 GPU 架構(gòu)采用 Load-Store 語義，計(jì)算引擎專注數(shù)據(jù)處理，LSU 負(fù)責(zé)數(shù)據(jù)傳輸。為提升效率，新型 GPU 增加類似 DMA 引擎的傳輸模塊，如 NVIDIA 的 TMA，減少計(jì)算引擎在數(shù)據(jù)傳輸上的資源消耗。在 AI 集群中，Scale-up 和 Scale-out 網(wǎng)絡(luò)協(xié)同工作。Scale-up 網(wǎng)絡(luò)要求高帶寬、低時延，支持 Load/Store 語義用于同步操作；Scale-out 網(wǎng)絡(luò)則相對低帶寬、高時延，支持 RDMA 語義用于異步操作。字節(jié)跳動自研的 EthLink 協(xié)議，同時支持 Load/Store 和 RDMA 語義，這一特性使它能更好地滿足不同數(shù)據(jù)傳輸需求。

在下一代 Scale-up 互聯(lián)方案方面，字節(jié)跳動提出了一系列關(guān)鍵需求。既要支持 Load/Store 語義高效傳輸小塊數(shù)據(jù)和控制信息，又要支持 RDMA 語義高效傳輸大塊數(shù)據(jù)，節(jié)省計(jì)算引擎算力。還需實(shí)現(xiàn)遠(yuǎn)端 Global Memory 和本地 Shared Memory 之間的數(shù)據(jù)傳輸，并且接口要簡潔，以適配 GPU 內(nèi)部模塊交互。此外，通過系統(tǒng)軟件保證 Cache Coherency，而非依賴網(wǎng)絡(luò)硬件，同時對相同傳輸路徑的語義操作和數(shù)據(jù)報文保序。EthLink 網(wǎng)絡(luò)方案在滿足這些需求上表現(xiàn)出色。其協(xié)議棧分為 Scale-Up 語義層和 Scale-up 網(wǎng)絡(luò)層，Scale-Up 語義層又細(xì)分 GPU 操作和 Scale-up 事務(wù)層，涵蓋 Load/Store、RDMA 語義等多種操作。在可靠性上，EthLink 采用 LLR（Link Layer Retry）和 CBFC（Credit-Based Flow Control）實(shí)現(xiàn)可靠的無損網(wǎng)絡(luò)，同時優(yōu)化鏈路層報文頭減少傳輸開銷。

網(wǎng)絡(luò)拓?fù)渖希總€ GPU 服務(wù)器部署多個 EthLink 協(xié)議棧，支持 1 - 4 個以太網(wǎng)接口，GPU 服務(wù)器之間通過低時延以太網(wǎng)交換機(jī)互連，同一個 Scale-up 域最大支持 1024 個 GPU 節(jié)點(diǎn)，并采用 Multi-Path 實(shí)現(xiàn)端口負(fù)載均衡。不過，這也引入了亂序問題，需要上層應(yīng)用處理。在網(wǎng)絡(luò)接口方面，EthLink 報文格式引入 RH（Reliability Header）和 OEFH（Optimized EthLink Forwarding Header）。RH 增強(qiáng)端到端可靠性，OEFH 使用更小的報文 header 提升有效負(fù)載率，甚至能取代標(biāo)準(zhǔn)以太網(wǎng)和 TCP/IP 協(xié)議棧中的部分報文頭，降低報文開銷。同時，EthLink 選擇 RS-272 這種低延遲的 FEC 方案，支持 LLR 和 CBFC 降低丟包概率和延遲，交換機(jī)與 GPU 間建立狀態(tài)反饋機(jī)制（Switch Event Notification）快速切換路徑避免丟包。

字節(jié)跳動此次發(fā)布的技術(shù)成果，展現(xiàn)了在 AI 網(wǎng)絡(luò)領(lǐng)域的深度探索和創(chuàng)新能力。EthLink 網(wǎng)絡(luò)方案有望解決當(dāng)前 AI 集群通信中的諸多痛點(diǎn)，提升 GPU 之間的通信效率，為大規(guī)模 AI 訓(xùn)練和應(yīng)用提供有力支持。隨著 AI 技術(shù)不斷發(fā)展，對 GPU 算力和通信性能的要求越來越高，字節(jié)跳動的這一技術(shù)突破或許將引領(lǐng)行業(yè)新的發(fā)展方向，推動 AI 網(wǎng)絡(luò)技術(shù)的進(jìn)一步革新。

【技術(shù)備注】
Load-Store 語義：一種數(shù)據(jù)訪問方式，Load 操作從內(nèi)存讀取數(shù)據(jù)到寄存器，Store 操作將寄存器中的數(shù)據(jù)寫回內(nèi)存，常用于 CPU、GPU 等計(jì)算設(shè)備的數(shù)據(jù)處理過程。

DMA 引擎：直接內(nèi)存訪問（Direct Memory Access）引擎，可讓設(shè)備在無需 CPU 干預(yù)的情況下，直接與內(nèi)存進(jìn)行數(shù)據(jù)傳輸，減輕 CPU 負(fù)擔(dān)，提升數(shù)據(jù)傳輸效率。

RDMA 語義：遠(yuǎn)程直接內(nèi)存訪問（Remote Direct Memory Access）語義，允許一臺計(jì)算機(jī)的應(yīng)用程序直接訪問另一臺計(jì)算機(jī)的內(nèi)存，無需目標(biāo)計(jì)算機(jī)的 CPU 參與，能實(shí)現(xiàn)高速數(shù)據(jù)傳輸，減少數(shù)據(jù)傳輸延遲和 CPU 開銷。

Cache Coherency：緩存一致性，確保多個處理器或設(shè)備在訪問共享內(nèi)存時，緩存數(shù)據(jù)的一致性，避免數(shù)據(jù)不一致導(dǎo)致的錯誤。

LLR（Link Layer Retry）：鏈路層重試機(jī)制，當(dāng)鏈路層傳輸出現(xiàn)錯誤時，通過重試確保數(shù)據(jù)可靠傳輸。

CBFC（Credit-Based Flow Control）：基于信用的流量控制，通過分配信用值來控制數(shù)據(jù)發(fā)送方的發(fā)送速率，避免接收方因來不及處理數(shù)據(jù)而導(dǎo)致丟包。

FEC（Forward Error Correction）：前向糾錯，一種數(shù)據(jù)傳輸糾錯技術(shù)，發(fā)送方在數(shù)據(jù)中添加冗余信息，接收方根據(jù)這些冗余信息檢測和糾正傳輸過程中出現(xiàn)的錯誤，RS-272 是一種低延遲的 FEC 方案。

97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

字節(jié)跳動 GPU 互聯(lián)技術(shù)白皮書發(fā)布，引領(lǐng) AI 網(wǎng)絡(luò)新趨勢

發(fā)布時間：2025-05-08 09:31:43 熱度：2892

字節(jié)跳動 GPU 互聯(lián)技術(shù)白皮書發(fā)布，引領(lǐng) AI 網(wǎng)絡(luò)新趨勢