5/09/2025,光纖在線訊,這個話題是編輯最感興趣的話題之一,也是今年短課程環(huán)節(jié)早早報名結(jié)束的唯一課程。SC359:"面向數(shù)據(jù)中心和機器學習的網(wǎng)絡",主講人是谷歌的Hong Liu和Ryohei Urata。有趣的是,當天我趕到會場時,這場竟然是唯一沒有門衛(wèi)查票的,可以隨便進去。由于沒有報名,編輯不好貿(mào)然聽課,只是課后設法借到講義,給大家分享一點內(nèi)容。
第一個要分享的概念是warehouse-scale computer(倉儲級計算機)。關于這個概念網(wǎng)上中文介紹很少,根據(jù)中文定義翻譯過來就是:倉庫級計算機是指一種分層組織的系統(tǒng),該系統(tǒng)配備有大量處理器,能夠利用請求級并行性和數(shù)據(jù)級并行性。這些系統(tǒng)構成了谷歌和亞馬遜等公司云基礎設施的核心,對于處理云中的交互式應用程序和批處理應用程序至關重要。Hong Liu她們的解釋是:“這不是裝計算機的倉庫,而是一座倉庫/校園大小的計算機,所有的節(jié)點都能協(xié)同配合。為此,需要將這些服務器,交換機連接起來的低成本的互聯(lián)方案?!?
第二個要指出的是這種計算機集群對并行性的要求。單一的服務器包括CPU, DRAM,硬盤,閃存等硬件,大約40-80臺服務器加交換機構成一個機架,幾十個機架加上交換機構成一個集群Cluster。傳統(tǒng)數(shù)據(jù)中心計算機集群的特點是硬件上盡量低成本,不追求高興能,而通過軟件去改善系統(tǒng)級可靠性,同時對并行能力要求很高,因為要配合互聯(lián)網(wǎng)內(nèi)在的并行要求。另外一點就是整個性能受限于I/O能力。而新一代的AI計算集群對單個服務器的要求更高,要采用專門的CPU/GPU/TPU等,追求單機的高性能,同時對并行能力要求更高,主要是滿足LLM大模型的需求。
第三點,從2011年到2021年,谷歌數(shù)據(jù)中心內(nèi)部的網(wǎng)絡流量增長了235倍。講義里提到,數(shù)據(jù)中心計算集群對網(wǎng)絡性能的要求是:盡量無阻塞(給APP/軟件工程師處理并行業(yè)務的足夠自由),豐富帶寬的網(wǎng)絡架構,低的端到端延遲,冗余性和可靠性。為此,整個網(wǎng)絡的性能主要是有拓撲結(jié)構(Torus環(huán),Clos,折疊的CLos, 胖樹),路由和流控制等來決定的。而成本更多受到拓撲,交換ASIC和各種互聯(lián)手段的影響。谷歌的數(shù)據(jù)中心架構如今已經(jīng)發(fā)展到第六代,Clos網(wǎng)絡的總帶寬從2Tbps到10Tbps到100Tbps到200Tbps到1.3Pbps再到6.5Pbs。
說到網(wǎng)絡拓撲,講義還用一頁重點提到NXN 非阻塞光交叉連接產(chǎn)品。如今商用的已經(jīng)有100個端口以上的100G速率的這種產(chǎn)品。
第四點,高基數(shù)Radix的交換機可以支持更高的帶寬,但是制造難度更高。過去20年里,谷歌的交換機從2006年的Firehose發(fā)展到2024年的Juipiter 4.0,帶寬能力提升了將近5000倍。
第五,具體到面向機器學習的數(shù)據(jù)中心網(wǎng)絡。2023年底推出的谷歌TPU v5p能夠提供459 teraFLOPS(每秒可執(zhí)行459萬億次浮點運算)的bfloat16(16位浮點數(shù)格式)性能或918 teraOPS(每秒可執(zhí)行918萬億次整數(shù)運算)的Int8(執(zhí)行8位整數(shù))性能,支持95GB的高帶寬內(nèi)存,能夠以2.76 TB/s的速度傳輸數(shù)據(jù)。面向機器學習的網(wǎng)絡對并行能力要求很高,可以分為最上面的Host Network,中間的Scale out網(wǎng)絡(低延遲,DCN或者Infiniband)以及最基本的Scale up網(wǎng)絡(10個GPU到1000個TPU)。
Scale-up網(wǎng)絡的帶寬要求至少比Scaleout高一個數(shù)量級,對本地通信的要求更高,對$/gbps和pJ/bit更敏感,對延遲非常敏感,要求非常簡單的endpoint架構。Scaleout網(wǎng)絡則用于高度優(yōu)化的“集體”庫,應用對延遲抖動非常敏感。在講義中,引起我注意的一句話是“ML Superpod,不僅是帶寬,也和規(guī)模有關”。解釋一下就是超級計算機Superpod的設計需要在大算力和高速通信之間進行均衡。更大的Pods, 更低的DCN帶寬要求,更靈活的模型架構。光連接技術在其中主要用于發(fā)展更大型的系統(tǒng),面向高帶寬,短距離,低延遲的應用。這其中FEC的選擇對于低延遲非常關鍵。(光纖中光的延遲是每米5ns,銅線中每米4.5ns)
AI作圖
第六,Hong Liu他們還用了很大篇幅來將光模塊技術的進步。這里特別談談里面關于200G Per Lane的內(nèi)容。這是1.6T及更高光模塊技術的基礎,也是當前提升AI網(wǎng)絡性能的關鍵。這其中的技術難點主要在于電通道的方面。解決辦法一個是采用2nm CMOS工藝,一個可能是采用Optical chiplet,CPO,Co-package銅技術等。在提升光的帶寬方面,主要有光通道每維度(WDM,SDM, I/Q, 偏振),符號率(10G,25G, 50G)和多層編碼每維度(2b/s,2.5b/s, 3b/s)幾個方面。每種技術都有其自身的優(yōu)點和缺點。對于當前的IM-DD和相干之爭,關鍵還是器件本身的帶寬。實現(xiàn)同樣的每波長傳輸速率,不同的調(diào)制技術對于器件自身帶寬要求不一樣。200Gbps每通道可能會是當前IM-DD和相干的交匯點。在器件自身帶寬難以突破40GHz情況下,要想實現(xiàn)更高的每波長傳輸速率,可能只有相干一個辦法(I/Q和偏振復用也許是辦法)。
最后一點,少不了要提一下谷歌的OCS。這是在TPU v4發(fā)布時的熱門技術。我以為,Hong Liu他們并沒有對OCS給出太高的評價。相比于分組交換,線路交換中所有數(shù)據(jù)包都采用同一物理路徑,沒有存儲轉(zhuǎn)發(fā)功能,具有最小的端到端延遲。相比傳統(tǒng)的Clos基礎的交換架構,谷歌Apollo架構用OCS替代原來的Spine交換機,包括OCS, 環(huán)形器(都是三石園今年參展的重點),WDM光收發(fā)模塊。沒有Spine layer可以減少成本,功耗和延遲,同時支持更靈活的架構設計。谷歌認為引入OCS的最大好處就是靈活性,同時可以降低成本。但是缺點可能是相比ASIC交換功能有限,交換速度慢,需要基本的控制面,對可靠性要求高等。講義中羅列的OCS技術方案包括MEMS, Robotic, 壓電,導波,波長交換等。
今年OFC上關于AI網(wǎng)絡架構所需要的光通信技術討論其實還有許多,幾乎場場都很滿,足見大家對這一問題的關心。這里面其實還有很多問題值得探討,比如銅和電的關系,OCS是否真的需要,更高的每通道帶寬能否實現(xiàn)等等,歡迎大家來CFCF光連接大會和我們一起討論。