97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

字節(jié)跳動 GPU 互聯(lián)技術白皮書發(fā)布,引領 AI 網絡新趨勢

光纖在線編輯部  2025-05-08 09:31:43  文章來源:本站消息  版權所有,未經許可嚴禁轉載.

導讀:2025 年 5 月,字節(jié)跳動發(fā)布 GPU Scale-up 互聯(lián)技術白皮書并推出 EthLink 網絡方案,該方案基于以太網優(yōu)化,旨在滿足 AI 應用對 GPU 高效通信需求,涵蓋 GPU 架構與互聯(lián)方案分析、下一代 Scale-up 互聯(lián)方案需求及網絡設計,介紹了 EthLink 協(xié)議棧、網絡拓撲和接口等內容。

5/08/2025,光纖在線訊,近日,字節(jié)跳動發(fā)布了基于以太網優(yōu)化的 GPU Scale-up 互聯(lián)技術白皮書,并推出 EthLink 創(chuàng)新網絡方案,這一舉措在 AI 算力網絡領域引發(fā)廣泛關注,有望為 AI 集群通信帶來新的突破。

從 GPU 架構來看,主流 GPU 架構采用 Load-Store 語義,計算引擎專注數(shù)據(jù)處理,LSU 負責數(shù)據(jù)傳輸。為提升效率,新型 GPU 增加類似 DMA 引擎的傳輸模塊,如 NVIDIA 的 TMA,減少計算引擎在數(shù)據(jù)傳輸上的資源消耗。在 AI 集群中,Scale-up 和 Scale-out 網絡協(xié)同工作。Scale-up 網絡要求高帶寬、低時延,支持 Load/Store 語義用于同步操作;Scale-out 網絡則相對低帶寬、高時延,支持 RDMA 語義用于異步操作。字節(jié)跳動自研的 EthLink 協(xié)議,同時支持 Load/Store 和 RDMA 語義,這一特性使它能更好地滿足不同數(shù)據(jù)傳輸需求。
      
在下一代 Scale-up 互聯(lián)方案方面,字節(jié)跳動提出了一系列關鍵需求。既要支持 Load/Store 語義高效傳輸小塊數(shù)據(jù)和控制信息,又要支持 RDMA 語義高效傳輸大塊數(shù)據(jù),節(jié)省計算引擎算力。還需實現(xiàn)遠端 Global Memory 和本地 Shared Memory 之間的數(shù)據(jù)傳輸,并且接口要簡潔,以適配 GPU 內部模塊交互。此外,通過系統(tǒng)軟件保證 Cache Coherency,而非依賴網絡硬件,同時對相同傳輸路徑的語義操作和數(shù)據(jù)報文保序。EthLink 網絡方案在滿足這些需求上表現(xiàn)出色。其協(xié)議棧分為 Scale-Up 語義層和 Scale-up 網絡層,Scale-Up 語義層又細分 GPU 操作和 Scale-up 事務層,涵蓋 Load/Store、RDMA 語義等多種操作。在可靠性上,EthLink 采用 LLR(Link Layer Retry)和 CBFC(Credit-Based Flow Control)實現(xiàn)可靠的無損網絡,同時優(yōu)化鏈路層報文頭減少傳輸開銷。
      
網絡拓撲上,每個 GPU 服務器部署多個 EthLink 協(xié)議棧,支持 1 - 4 個以太網接口,GPU 服務器之間通過低時延以太網交換機互連,同一個 Scale-up 域最大支持 1024 個 GPU 節(jié)點,并采用 Multi-Path 實現(xiàn)端口負載均衡。不過,這也引入了亂序問題,需要上層應用處理。在網絡接口方面,EthLink 報文格式引入 RH(Reliability Header)和 OEFH(Optimized EthLink Forwarding Header)。RH 增強端到端可靠性,OEFH 使用更小的報文 header 提升有效負載率,甚至能取代標準以太網和 TCP/IP 協(xié)議棧中的部分報文頭,降低報文開銷。同時,EthLink 選擇 RS-272 這種低延遲的 FEC 方案,支持 LLR 和 CBFC 降低丟包概率和延遲,交換機與 GPU 間建立狀態(tài)反饋機制(Switch Event Notification)快速切換路徑避免丟包。

字節(jié)跳動此次發(fā)布的技術成果,展現(xiàn)了在 AI 網絡領域的深度探索和創(chuàng)新能力。EthLink 網絡方案有望解決當前 AI 集群通信中的諸多痛點,提升 GPU 之間的通信效率,為大規(guī)模 AI 訓練和應用提供有力支持。隨著 AI 技術不斷發(fā)展,對 GPU 算力和通信性能的要求越來越高,字節(jié)跳動的這一技術突破或許將引領行業(yè)新的發(fā)展方向,推動 AI 網絡技術的進一步革新。

【技術備注】
Load-Store 語義:一種數(shù)據(jù)訪問方式,Load 操作從內存讀取數(shù)據(jù)到寄存器,Store 操作將寄存器中的數(shù)據(jù)寫回內存,常用于 CPU、GPU 等計算設備的數(shù)據(jù)處理過程。

DMA 引擎:直接內存訪問(Direct Memory Access)引擎,可讓設備在無需 CPU 干預的情況下,直接與內存進行數(shù)據(jù)傳輸,減輕 CPU 負擔,提升數(shù)據(jù)傳輸效率。

RDMA 語義:遠程直接內存訪問(Remote Direct Memory Access)語義,允許一臺計算機的應用程序直接訪問另一臺計算機的內存,無需目標計算機的 CPU 參與,能實現(xiàn)高速數(shù)據(jù)傳輸,減少數(shù)據(jù)傳輸延遲和 CPU 開銷 。

Cache Coherency:緩存一致性,確保多個處理器或設備在訪問共享內存時,緩存數(shù)據(jù)的一致性,避免數(shù)據(jù)不一致導致的錯誤。

LLR(Link Layer Retry):鏈路層重試機制,當鏈路層傳輸出現(xiàn)錯誤時,通過重試確保數(shù)據(jù)可靠傳輸。

CBFC(Credit-Based Flow Control):基于信用的流量控制,通過分配信用值來控制數(shù)據(jù)發(fā)送方的發(fā)送速率,避免接收方因來不及處理數(shù)據(jù)而導致丟包。

FEC(Forward Error Correction):前向糾錯,一種數(shù)據(jù)傳輸糾錯技術,發(fā)送方在數(shù)據(jù)中添加冗余信息,接收方根據(jù)這些冗余信息檢測和糾正傳輸過程中出現(xiàn)的錯誤,RS-272 是一種低延遲的 FEC 方案。
光纖在線

光纖在線公眾號

更多猛料!歡迎掃描左方二維碼關注光纖在線官方微信
微信掃描二維碼
使用“掃一掃”即可將網頁分享至朋友圈。