2/10/2025,光纖在線訊,為了滿足AI集群高帶寬域超節(jié)點(diǎn)的大節(jié)點(diǎn)數(shù)、高帶寬、低延遲、低成本的要求,默升科技的黃水清發(fā)布了《用普通光模塊實(shí)現(xiàn)光突發(fā)交換scale-up網(wǎng)絡(luò)擴(kuò)容》的文章,本文提出了利用普通連續(xù)模式光模塊配合光突發(fā)交換構(gòu)建超大規(guī)模scale-up超節(jié)點(diǎn)網(wǎng)絡(luò),該網(wǎng)絡(luò)從GPU角度看來是光/電分組交換(OPS/EPS)網(wǎng)絡(luò),可實(shí)現(xiàn)更大的交換容量和較低的延遲及可控的成本。
近來隨著AI網(wǎng)絡(luò)的發(fā)展,越來越大的大模型參數(shù)量要求規(guī)模越來越大的超節(jié)點(diǎn)網(wǎng)絡(luò),即算力芯片之間無收斂全帶寬互聯(lián)的高帶寬域。除了節(jié)點(diǎn)數(shù)量大、節(jié)點(diǎn)帶寬高這兩個(gè)挑戰(zhàn)外,還要求低延遲、低成本。傳統(tǒng)多層交換網(wǎng)絡(luò)將導(dǎo)致成本和延遲急劇增加,顯然不符合需求,所以單層和兩層交換scale-up網(wǎng)絡(luò)成為超節(jié)點(diǎn)考慮的重點(diǎn)。
1、單層交換網(wǎng)絡(luò)的容量分析
2、兩層交換網(wǎng)絡(luò)的容量分析
3、各種超節(jié)點(diǎn)技術(shù)方案的嘗試
4、光突發(fā)交換OBS的嘗試
光突發(fā)交換OBS技術(shù)早在十年前就已經(jīng)被廣泛研究[5],其特點(diǎn)是控制面和數(shù)據(jù)面分離,不需要從數(shù)據(jù)包中提取包頭信號(hào)解析目標(biāo)地址,而是另辟控制面網(wǎng)絡(luò),提前控制高速光開關(guān)矩陣中相應(yīng)的路徑完成納秒級(jí)的高速切換,與其同步的數(shù)據(jù)面信號(hào)同時(shí)從自發(fā)自收的空閑狀態(tài)完成與目標(biāo)地址自發(fā)自收的空閑狀態(tài)的光模塊之間的收發(fā)切換,這兩只光模塊完成信號(hào)交換之后,控制面再給出恢復(fù)信號(hào),使這兩只光模塊都各自恢復(fù)到自發(fā)自收的空閑狀態(tài),等待下一次和其他光模塊組成鏈路交換,這樣可以保持所有鏈路(包括有信號(hào)的和空閑的)連續(xù)不斷鏈,避免了物理層的突發(fā)模式和高速建鏈的困難。
OBS避免了OPS對(duì)全光存儲(chǔ)和全光邏輯器件的需求,供應(yīng)鏈相對(duì)成熟。但是當(dāng)年光突發(fā)交換OBS主要是針對(duì)長(zhǎng)途電信網(wǎng)絡(luò)展開了研究,上千公里的傳輸使控制面與數(shù)據(jù)面的同步極為困難,各種軟件補(bǔ)償方法嘗試之后并沒有商用普及。近年來AI集群的發(fā)展給這種“失敗的技術(shù)”帶來了新生,因?yàn)锳I集群所有設(shè)備都在同一個(gè)房間(Warehouse Scale),有報(bào)道超過50m的scale-up網(wǎng)絡(luò)將必然影響GPU的吞吐效率,無論銅纜還是光纖,無論采用什么網(wǎng)絡(luò)技術(shù)方案,所以超節(jié)點(diǎn)scale-up網(wǎng)絡(luò)為了低延遲的要求,距離一般小于30m范圍,這樣控制面和數(shù)據(jù)面信號(hào)同步很容易。而且高速硅基MZI光開關(guān)矩陣、SOA、高速高鏈路預(yù)算ER光模塊、突發(fā)交換ASIC等相關(guān)部件的供應(yīng)鏈也逐漸成熟 。傳統(tǒng)上人們擔(dān)心成熟的MZI調(diào)制器和光開關(guān)體積過大,其實(shí)在OBS系統(tǒng)中這個(gè)問題根本不存在。因?yàn)槿饨粨Q網(wǎng)絡(luò)沒有光-電-光的轉(zhuǎn)換過程,不存在高速信號(hào)的傳輸距離對(duì)損耗的影響,也就是說所有光交換和傳輸器件/設(shè)備放在數(shù)米距離范圍內(nèi)的任何地方,互聯(lián)光纖所產(chǎn)生的損耗、延遲和成本都可以忽略,所以沒有必要如CPO/OIO那樣必須猬集在很小的空間,各種體積較大的優(yōu)秀技術(shù)首先被一票否決,甚至盲目追求更高的帶寬密度,連標(biāo)準(zhǔn)光傳輸模塊都被嫌棄體積太大?,F(xiàn)在為了給液冷系統(tǒng)留空間,AI服務(wù)器機(jī)柜高度從原來不足7英尺增加到17英尺,根本不用擔(dān)心沒有足夠的物理空間部署各種大體積的光交換設(shè)備。
用光交換矩陣替代Spine電交換機(jī)理論上的好處是極為明顯的:
1)光交換本身沒有數(shù)據(jù)面拆包封包的過程,所以理論上延遲為零;
2)利用成熟的硅光MZI工藝生產(chǎn)的高速光開關(guān)芯片成本較低,最多可以把相比Leaf層的Spine層交換機(jī)成本從1/2到數(shù)量級(jí)地降低,光模塊數(shù)量也減少一半,如表1,從根本上解決了網(wǎng)絡(luò)成本占比高的難題。即使考慮到高速硅光開關(guān)波長(zhǎng)窗口窄,不用波分復(fù)用,全部單一波長(zhǎng),成本也很低。
3)光交換矩陣及其控制面的功耗可以忽略。
4)還可以達(dá)到更大的交換網(wǎng)絡(luò)規(guī)模(下面將詳細(xì)討論)。
5)擁有光交換共同的優(yōu)點(diǎn),協(xié)議透明,升級(jí)友好??沙鼗懔痛鎯?chǔ)資源,可在光域開辟冗余路由提升網(wǎng)絡(luò)可生存性和無故障工作時(shí)間。
表1、 OBS替代Spine電交換機(jī)的成本比較
但是這樣的方案還存在很多技術(shù)難題:首先是高速光開關(guān)陣列難以做到很寬的工作波長(zhǎng)窗口、偏振不敏感、低插損和低串?dāng)_;高鏈路預(yù)算的800G ER8光模塊可能存在復(fù)雜的四波混頻干擾現(xiàn)象難以消除。所以采用單一波長(zhǎng)的光模塊如800G OSFP 8ER可以大幅度降低包括光開關(guān)矩陣芯片在內(nèi)的光器件的實(shí)現(xiàn)難度。至于高速光開關(guān)的偏振敏感問題,可以將全部光纖換成保偏PMF解決(除了光模塊接收的一段可以用SMF),反正scale-up網(wǎng)絡(luò)的物理距離只有數(shù)十米,成本增加不明顯,長(zhǎng)距離造成的傳輸延遲首先是GPU無法容忍的。
當(dāng)然這樣做也是有代價(jià)的,光突發(fā)交換顆粒從800G降低到100G,就需要8倍數(shù)量的光開關(guān)矩陣!好在硅基高速光開關(guān)芯片的成本已經(jīng)足夠低,這樣的變化對(duì)系統(tǒng)總成本影響甚微。所以如表1所示,相比傳統(tǒng)兩層電交換網(wǎng)絡(luò)減少1/3的交換機(jī)和一半的光模塊,增加了Spine層光交換矩陣,這部分的成本與Leaf層(電)交換機(jī)的成本之比最終約為1/7,未來隨著硅光開關(guān)批量的增大,半導(dǎo)體工藝的特點(diǎn)也保證其成本還會(huì)繼續(xù)降低。
與純電交換網(wǎng)絡(luò)引入MPS技術(shù)的目的類似,為了進(jìn)一步擴(kuò)大兩層交換網(wǎng)絡(luò)的規(guī)模,降低光交換矩陣的技術(shù)難度,我們?cè)谝隣BS的基礎(chǔ)上進(jìn)一步引入MPS技術(shù)構(gòu)建8192以太網(wǎng)超節(jié)點(diǎn),如圖5,將原來800G的交換顆粒分散到多條單波長(zhǎng)100G路徑,不需要波分復(fù)用,不需要波長(zhǎng)交換,這更符合硅光技術(shù)的特點(diǎn)。多路徑網(wǎng)絡(luò)必須解決的問題是:每一個(gè)數(shù)據(jù)包無誤碼地按照理想的順序傳輸是很困難的,經(jīng)過不同的實(shí)時(shí)光/電交換多路徑,最后到達(dá)同一個(gè)目標(biāo)地址,封裝成一個(gè)大數(shù)據(jù)包,還要有足夠低的丟包率。
每個(gè)GPU的I/O總帶寬是400GB,其中100GB=800Gbpcs通過NIC連接scale-out網(wǎng)絡(luò),用于scale-up網(wǎng)絡(luò)互聯(lián)的帶寬是300GB=2400Gbps,分別包噴灑到24個(gè)彼此獨(dú)立的數(shù)據(jù)平面(Plane),每一個(gè)數(shù)據(jù)包都是100G的交換顆粒。假設(shè)GPU(1,4)和GPU(32,256)需要建立一個(gè)100G的鏈路,通過AEC分別傳輸?shù)浇粨Q機(jī)(1,24)和(32,24),這兩個(gè)交換機(jī)之間通過256張(Page)彼此獨(dú)立的光交換矩陣互聯(lián)。因?yàn)檫@兩個(gè)交換機(jī)都只有32個(gè)上行端口,8*32=256個(gè)獨(dú)立鏈路;每個(gè)節(jié)點(diǎn)只有256個(gè)GPU,每個(gè)GPU只有一個(gè)100G鏈路通過該數(shù)據(jù)平面,所以至少存在一張(Page)空閑鏈路,假如交換機(jī)(1,24)光纖(1,24,256)光交換芯片(256,24)光纖(32,24,256)交換機(jī)(32,24)是空閑鏈路(如圖中紅色所示),所謂空閑鏈路就是說光模塊自己的發(fā)端最后輸入到自己的收端。所謂光突發(fā)交換就是這兩對(duì)收發(fā)光信號(hào)在光交換矩陣的納秒級(jí)切換時(shí)間內(nèi)完成路由互換,因?yàn)閮蓚€(gè)光模塊的這兩條通道速率嚴(yán)格一致;光發(fā)射功率和接收靈敏度也都差不多,現(xiàn)在光交換矩陣都是路徑無關(guān)的,理論上光路切換時(shí)插損不變,所以輸入到光模塊的光信號(hào)在切換前后的幅度也基本一致,僅僅納秒級(jí)的切換時(shí)間并不會(huì)造成Serdes的斷鏈和重新建鏈,及其導(dǎo)致的一系列問題。當(dāng)這包信號(hào)完成傳輸之后,控制面再送出控制信號(hào)將這兩對(duì)光模塊的光路切換回來,各自恢復(fù)到自發(fā)自收的空閑狀態(tài),等待下一次和另外光模塊之間的突發(fā)交換。所以光模塊可以用普通的連續(xù)模式高鏈路預(yù)算800G OSFP 8ER光模塊。
另外一點(diǎn)值得注意的是:從光和光器件的傳輸側(cè)角度來看,Spine層交換沒有光-電-光的轉(zhuǎn)換過程、控制面和數(shù)據(jù)面分離、沒有引入不成熟的純光SRAM和純光邏輯器件在光域解析包地址,系典型的光突發(fā)交換OBS;但是從電和GPU的應(yīng)用側(cè)角度來看,圖5和圖3沒有本質(zhì)的區(qū)別,電的包交換和光的包交換都是逐包的分組交換(OPS/EPS),該做的兩層胖樹網(wǎng)絡(luò)的交換工作一樣不少,差別是原本由Spine層電交換機(jī)做的phy以上層工作因?yàn)楣饨粨Q矩陣做不了,只好逐包分散到相關(guān)的Leaf層交換機(jī),讓Leaf層交換機(jī)工作量翻倍,僅此而已。這有效避免了光線路交換OCS做GPU互聯(lián)時(shí)難以克服的多播、突發(fā)延遲大,軟件通用性受限等一系列問題。
圖5、 引入32x32 OBS的8192超節(jié)點(diǎn)scale-up網(wǎng)絡(luò)
對(duì)每一個(gè)32x32光交換矩陣來說,每一個(gè)包信號(hào)送達(dá)的目的地地址(也就是包地址)是5位二進(jìn)制,25=32,24個(gè)獨(dú)立數(shù)據(jù)平面(Plane),32*8=256張(Page)光交換矩陣,總共需要24*32*8*32*5路互相獨(dú)立的控制面信號(hào),由24*32片帶OBS控制輸出的電交換ASIC芯片提供,所以每片ASIC輸出256*5=1280路彼此獨(dú)立的包地址,系統(tǒng)側(cè)的FPGA將這些包地址傳給每一片相關(guān)的32*32光交換矩陣,共24*8*32=6144片;光交換矩陣?yán)锩嫫骷?cè)的FPGA又將給它的32*5路互相獨(dú)立的包地址譯碼成光交換矩陣基本單元的路地址,去控制每一個(gè)2x2光開關(guān)(或1x2、2x1)基本單元,切換其Cross/Bar的狀態(tài)。
表2、 光開關(guān)矩陣的成本和光插損比較
其實(shí)N*N大規(guī)模光開關(guān)矩陣的插損直接與其串聯(lián)的單元級(jí)數(shù),也就是N的對(duì)數(shù)呈線性關(guān)系(2log2N-1),而其基本單元數(shù)量與N呈平方關(guān)系(5/4N2-2N)[10],所以從理論上看光插損就不是限制光突發(fā)交換規(guī)模擴(kuò)大的最大瓶頸,成本才是。而且我們可以將64x64光交換矩陣的最后三級(jí)2x1 MZI光開關(guān)換成InP 三級(jí)Y形耦合器(實(shí)際上是81光合波器)加SOA,增益15dB的有源光芯片(不含片內(nèi)和端面的損耗),成本180$/pcs(綠色部分的光芯片成本可能略有低估)。如表2,至少中等規(guī)模的64x64矩陣成本增加可控,對(duì)光模塊的鏈路預(yù)算要求大幅度降低甚至到0dB左右。因?yàn)樽詈笕?jí)相關(guān)的八個(gè)輸入端口總共只有一個(gè)輸出,有且只有一個(gè)輸入是有光的,其他都是無光的,SOA難以克服的串?dāng)_問題將不存在;它也肯定是連續(xù)模式的;所有狀態(tài)的插損都是路徑無關(guān)的,也就沒有輸入光功率大幅度的變化對(duì)SOA工作狀態(tài)的影響。這樣甚至可以用供應(yīng)鏈最成熟的800G DR8模塊替代目前相對(duì)少見的800G 8ER模塊。
5、同為以太phy的scale-up和scale-out可以兩網(wǎng)合一
隨著大模型的進(jìn)一步發(fā)展,加上各種技術(shù)和非技術(shù)因素的影響,對(duì)網(wǎng)絡(luò)硬件的要求也不僅限于scaling law的暴力美學(xué),例如DeepSeek在高帶寬域的scale-up網(wǎng)絡(luò)規(guī)模和帶寬受限的現(xiàn)實(shí)條件下,通過更大的AI集群也就是更多的GPU或存儲(chǔ)節(jié)點(diǎn)組成scale-out網(wǎng)絡(luò),節(jié)點(diǎn)之間通過胖樹網(wǎng)絡(luò)任意互聯(lián),以實(shí)現(xiàn)更高的性價(jià)比、可靠性、通用性和兼容性。當(dāng)前各種超節(jié)點(diǎn)技術(shù)如NVLink、UALink、和各種以太超節(jié)點(diǎn)大多采用以太phy,因?yàn)閟cale-out網(wǎng)絡(luò)采用以太網(wǎng)協(xié)議已是首選,所以采用以太phy超節(jié)點(diǎn)技術(shù)除了前面提到的優(yōu)勢(shì)外,還有一大優(yōu)勢(shì)是更容易將同為以太phy的scale-up和scale-out兩網(wǎng)合一,更靈活地共享GPU的全部I/O帶寬資源,可以動(dòng)態(tài)實(shí)時(shí)大幅度地調(diào)節(jié)超節(jié)點(diǎn)內(nèi)每一個(gè)GPU的scale-out/scale-up收斂比。特別是scale-up網(wǎng)絡(luò)引入OBS之后,高帶寬域的交換網(wǎng)絡(luò)能夠全帶寬覆蓋的節(jié)點(diǎn)數(shù)大幅度增加,延遲和成本可控,很大程度上滿足了原本必須采用高收斂比的scale-out網(wǎng)絡(luò)才能達(dá)成的東西向網(wǎng)絡(luò)規(guī)模擴(kuò)張的目的。超節(jié)點(diǎn)的規(guī)模變得越來越大,在GPU總數(shù)一定的前提下,較大的超節(jié)點(diǎn)其數(shù)量就會(huì)比較少,原本scale-out網(wǎng)絡(luò)需要的大規(guī)模OCS也就會(huì)變成中小規(guī)模,更加容易實(shí)現(xiàn)。

圖6、 scale-up/scale-out兩網(wǎng)合一超大GPU集群
如圖6,這個(gè)26萬卡GPU集群可以統(tǒng)一采用51.2T電交換機(jī)和800G光模塊,就是說除了帶OBS控制輸出的交換ASIC(scale-out部分可以關(guān)閉Spine層OBS控制輸出等功能,僅保留Leaf層電交換的基本功能,由軟件和OCS 控制器直接控制所有光開關(guān)基本單元完成scale-out網(wǎng)絡(luò)的光調(diào)度),其他部件全部是成熟的供應(yīng)鏈。即使這個(gè)特殊的交換ASIC也僅僅是把芯片內(nèi)部控制電CrossBar的控制面信號(hào)引出到芯片外部,同時(shí)控制光CrossBar;同時(shí)還協(xié)助Spine層光交換部分工作而已,并沒有什么高艱深工藝技術(shù)的挑戰(zhàn)。32個(gè)8192以太phy超節(jié)點(diǎn)組成的兩網(wǎng)合一26萬卡GPU集群,每個(gè)超節(jié)點(diǎn)內(nèi)部的8192卡GPU(M*P/2=32*512/2=8192)之間全帶寬400GB互聯(lián)(圖3和圖5只有300GB),更充分地利用了GPU的I/O帶寬資源做超節(jié)點(diǎn)內(nèi)的全帶寬任意節(jié)點(diǎn)互聯(lián),任意GPU到超節(jié)點(diǎn)內(nèi)的其他GPU都只有兩跳,scale-out部分平均按照1:8帶寬收斂(這個(gè)收斂比還可以實(shí)時(shí)動(dòng)態(tài)大幅度地調(diào)節(jié))。雖然從網(wǎng)絡(luò)角度看這個(gè)scale-out網(wǎng)絡(luò)是三層網(wǎng)絡(luò),但是中間層(不是scale-up的Spine層)是OCS光交換(32*32)矩陣,光交換的天然優(yōu)勢(shì)使整個(gè)網(wǎng)絡(luò)的成本、延遲和功耗都接近兩層電交換網(wǎng)絡(luò),而且電協(xié)議透明,升級(jí)友好;自帶故障躲避路徑倒換能力,提升網(wǎng)絡(luò)可靠性;全可插拔光器件降低工藝和使用維護(hù)的難度和成本等一系列好處。
值得注意的是,貼近GPU的全帶寬互聯(lián)scale-up網(wǎng)絡(luò)無帶寬收斂,要求適應(yīng)突發(fā)流量,大帶寬,低延遲,必須采用納秒級(jí)開關(guān)速度的電調(diào)OBS光開關(guān),而且$/G成本敏感,可靠性要求高,應(yīng)對(duì)高速光開關(guān)光插損大的問題最優(yōu)解應(yīng)該是采用高鏈路預(yù)算的800G 8ER光模塊。有帶寬收斂的scale-out網(wǎng)絡(luò)部分則不同,對(duì)延遲和成本沒有scale-up網(wǎng)絡(luò)那么敏感,各種低插損的微秒甚至毫秒級(jí)較慢開關(guān)速度的中小規(guī)模OCS光開關(guān)都可以引入,為了使用方便,最普通的800G DR8光模塊可能是首選,這樣就要求光開關(guān)矩陣總的光插損足夠小,甚至引入成本較高的SOA徹底抵消前面各級(jí)光開關(guān)的總插損。
隨著更大通道數(shù)的光交換矩陣和電交換芯片的采用,還可能進(jìn)一步實(shí)現(xiàn)更大的超節(jié)點(diǎn)和集群規(guī)模,并不會(huì)造成延遲和成本的飆升。換句話說,目前大模型迫切需求的千卡萬卡超節(jié)點(diǎn)網(wǎng)絡(luò)并不需要太大的光交換矩陣,中小規(guī)模(32x32左右)即可。這為大規(guī)模AI集群網(wǎng)絡(luò)的實(shí)現(xiàn)引入了新的維度,顯示出了很好的技術(shù)可行性、經(jīng)濟(jì)性和最佳切入點(diǎn),同時(shí)供應(yīng)鏈生態(tài)和未來升級(jí)友好,上限很高,甚至可能通過兩層光電交換網(wǎng)絡(luò)高達(dá)512x512的光交換矩陣和電交換芯片實(shí)現(xiàn)512*512/2=131072,超十萬卡的GPU超節(jié)點(diǎn),全帶寬互聯(lián),延遲和成本可控。這種小芯片大網(wǎng)絡(luò)方案可能避免目前在單柜內(nèi)聚集更多更大的GPU/交換芯片的單一技術(shù)路徑,避免挑戰(zhàn)CMOS制程、供電、散熱等工業(yè)極限,各種低pJ/bit(或$/G)的成熟技術(shù)也不會(huì)僅僅因?yàn)轶w積大而被一票否決。