字節(jié)跳動 GPU 互聯(lián)技術白皮書發(fā)布，引領 AI 網絡新趨勢

瀏覽量：

導讀：2025 年 5 月，字節(jié)跳動發(fā)布 GPU Scale-up 互聯(lián)技術白皮書并推出 EthLink 網絡方案，該方案基于以太網優(yōu)化，旨在滿足 AI 應用對 GPU 高效通信需求，涵蓋 GPU 架構與互聯(lián)方案分析、下一代 Scale-up 互聯(lián)方案需求及網絡設計，介紹了 EthLink 協(xié)議棧、網絡拓撲和接口等內容。

5/08/2025，光纖在線訊，近日，字節(jié)跳動發(fā)布了基于以太網優(yōu)化的 GPU Scale-up 互聯(lián)技術白皮書，并推出 EthLink 創(chuàng)新網絡方案，這一舉措在 AI 算力網絡領域引發(fā)廣泛關注，有望為 AI 集群通信帶來新的突破。

從 GPU 架構來看，主流 GPU 架構采用 Load-Store 語義，計算引擎專注數(shù)據(jù)處理，LSU 負責數(shù)據(jù)傳輸。為提升效率，新型 GPU 增加類似 DMA 引擎的傳輸模塊，如 NVIDIA 的 TMA，減少計算引擎在數(shù)據(jù)傳輸上的資源消耗。在 AI 集群中，Scale-up 和 Scale-out 網絡協(xié)同工作。Scale-up 網絡要求高帶寬、低時延，支持 Load/Store 語義用于同步操作；Scale-out 網絡則相對低帶寬、高時延，支持 RDMA 語義用于異步操作。字節(jié)跳動自研的 EthLink 協(xié)議，同時支持 Load/Store 和 RDMA 語義，這一特性使它能更好地滿足不同數(shù)據(jù)傳輸需求。

在下一代 Scale-up 互聯(lián)方案方面，字節(jié)跳動提出了一系列關鍵需求。既要支持 Load/Store 語義高效傳輸小塊數(shù)據(jù)和控制信息，又要支持 RDMA 語義高效傳輸大塊數(shù)據(jù)，節(jié)省計算引擎算力。還需實現(xiàn)遠端 Global Memory 和本地 Shared Memory 之間的數(shù)據(jù)傳輸，并且接口要簡潔，以適配 GPU 內部模塊交互。此外，通過系統(tǒng)軟件保證 Cache Coherency，而非依賴網絡硬件，同時對相同傳輸路徑的語義操作和數(shù)據(jù)報文保序。EthLink 網絡方案在滿足這些需求上表現(xiàn)出色。其協(xié)議棧分為 Scale-Up 語義層和 Scale-up 網絡層，Scale-Up 語義層又細分 GPU 操作和 Scale-up 事務層，涵蓋 Load/Store、RDMA 語義等多種操作。在可靠性上，EthLink 采用 LLR（Link Layer Retry）和 CBFC（Credit-Based Flow Control）實現(xiàn)可靠的無損網絡，同時優(yōu)化鏈路層報文頭減少傳輸開銷。

網絡拓撲上，每個 GPU 服務器部署多個 EthLink 協(xié)議棧，支持 1 - 4 個以太網接口，GPU 服務器之間通過低時延以太網交換機互連，同一個 Scale-up 域最大支持 1024 個 GPU 節(jié)點，并采用 Multi-Path 實現(xiàn)端口負載均衡。不過，這也引入了亂序問題，需要上層應用處理。在網絡接口方面，EthLink 報文格式引入 RH（Reliability Header）和 OEFH（Optimized EthLink Forwarding Header）。RH 增強端到端可靠性，OEFH 使用更小的報文 header 提升有效負載率，甚至能取代標準以太網和 TCP/IP 協(xié)議棧中的部分報文頭，降低報文開銷。同時，EthLink 選擇 RS-272 這種低延遲的 FEC 方案，支持 LLR 和 CBFC 降低丟包概率和延遲，交換機與 GPU 間建立狀態(tài)反饋機制（Switch Event Notification）快速切換路徑避免丟包。

字節(jié)跳動此次發(fā)布的技術成果，展現(xiàn)了在 AI 網絡領域的深度探索和創(chuàng)新能力。EthLink 網絡方案有望解決當前 AI 集群通信中的諸多痛點，提升 GPU 之間的通信效率，為大規(guī)模 AI 訓練和應用提供有力支持。隨著 AI 技術不斷發(fā)展，對 GPU 算力和通信性能的要求越來越高，字節(jié)跳動的這一技術突破或許將引領行業(yè)新的發(fā)展方向，推動 AI 網絡技術的進一步革新。

【技術備注】
Load-Store 語義：一種數(shù)據(jù)訪問方式，Load 操作從內存讀取數(shù)據(jù)到寄存器，Store 操作將寄存器中的數(shù)據(jù)寫回內存，常用于 CPU、GPU 等計算設備的數(shù)據(jù)處理過程。

DMA 引擎：直接內存訪問（Direct Memory Access）引擎，可讓設備在無需 CPU 干預的情況下，直接與內存進行數(shù)據(jù)傳輸，減輕 CPU 負擔，提升數(shù)據(jù)傳輸效率。

RDMA 語義：遠程直接內存訪問（Remote Direct Memory Access）語義，允許一臺計算機的應用程序直接訪問另一臺計算機的內存，無需目標計算機的 CPU 參與，能實現(xiàn)高速數(shù)據(jù)傳輸，減少數(shù)據(jù)傳輸延遲和 CPU 開銷。

Cache Coherency：緩存一致性，確保多個處理器或設備在訪問共享內存時，緩存數(shù)據(jù)的一致性，避免數(shù)據(jù)不一致導致的錯誤。

LLR（Link Layer Retry）：鏈路層重試機制，當鏈路層傳輸出現(xiàn)錯誤時，通過重試確保數(shù)據(jù)可靠傳輸。

CBFC（Credit-Based Flow Control）：基于信用的流量控制，通過分配信用值來控制數(shù)據(jù)發(fā)送方的發(fā)送速率，避免接收方因來不及處理數(shù)據(jù)而導致丟包。

FEC（Forward Error Correction）：前向糾錯，一種數(shù)據(jù)傳輸糾錯技術，發(fā)送方在數(shù)據(jù)中添加冗余信息，接收方根據(jù)這些冗余信息檢測和糾正傳輸過程中出現(xiàn)的錯誤，RS-272 是一種低延遲的 FEC 方案。

關鍵字：字節(jié)跳動網絡層 AI

編輯：Carolcai

合作轉載

光纖在線公眾號

更多猛料！歡迎掃描左方二維碼關注光纖在線官方微信

97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

字節(jié)跳動 GPU 互聯(lián)技術白皮書發(fā)布，引領 AI 網絡新趨勢

更多關于字節(jié)跳動 網絡層 AI 的新聞

相關產品

熱門搜索

熱門新聞

最新簡歷

展會速遞

97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

字節(jié)跳動 GPU 互聯(lián)技術白皮書發(fā)布，引領 AI 網絡新趨勢

更多關于 字節(jié)跳動 網絡層 AI 的新聞

相關產品

熱門搜索

熱門新聞

最新簡歷

展會速遞

字節(jié)跳動 GPU 互聯(lián)技術白皮書發(fā)布，引領 AI 網絡新趨勢

更多關于字節(jié)跳動網絡層 AI 的新聞