7/19/2021,光纖在線訊,6月23~25日,在CFCF2021光連接大會上,百度系統(tǒng)部光網(wǎng)絡(luò)架構(gòu)師郭蕾發(fā)表了《數(shù)據(jù)中心光互聯(lián)演進(jìn)探討》的主題報告,該報告從四個維度分享和探討了數(shù)據(jù)中心光互聯(lián)演進(jìn)的狀況,即數(shù)據(jù)中心互聯(lián)帶寬趨勢,光互聯(lián)技術(shù)變化帶動的數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)的變化,數(shù)據(jù)中心運(yùn)維模式以及組網(wǎng)規(guī)模。
 
郭總介紹到,百度在基于AI云計算有自己的相關(guān)技術(shù)。從服務(wù)器的規(guī)模來看,最早期是百兆、千兆的吞吐量,現(xiàn)在部署的是25G到100G服務(wù)器情況,再往后規(guī)劃的是100G到400G服務(wù)器的互聯(lián)帶寬。
一、數(shù)據(jù)中心互聯(lián)帶寬變化趨勢
    首先,整個數(shù)據(jù)中心服務(wù)器的帶寬,通信技術(shù)的發(fā)展跟社會的發(fā)展是息息相關(guān)的,從早期的信息經(jīng)濟(jì)到互聯(lián)網(wǎng)經(jīng)濟(jì)、數(shù)字經(jīng)濟(jì),再到現(xiàn)在的智能經(jīng)濟(jì),背后的驅(qū)動在于PC,移動互聯(lián),以及基于云的技術(shù)的不斷推進(jìn)。正是有了這些技術(shù)革新的基礎(chǔ),智能家居、AR/VR、游戲、自動駕駛、智慧園區(qū)、安防等新的應(yīng)用得以實(shí)現(xiàn),并給我們的數(shù)據(jù)中心流量帶來了無敵的變化:帶寬急劇爆發(fā)式增長,對時延的要求非常高,所以無論是整個數(shù)據(jù)中心的部署還邊緣部署以及Core的部署,目標(biāo)一致:都要求低成本、高帶寬、低時延,同時高可靠性、自動化的運(yùn)維模式。
    以百度典型的計算資源為例,縱觀近幾年CPU、網(wǎng)卡性能的趨勢,CPU性能在未來三年內(nèi)我們評估可能有近2倍以上的增長,對應(yīng)的網(wǎng)卡峰值流量則有更高的增長,這兩者肯定雖不是完全成正比,但也呈一定的線性關(guān)系。
二、光互聯(lián)技術(shù)變化的趨勢
    郭總重點(diǎn)介紹了最近十年來數(shù)據(jù)中心交換芯片和光模塊的部署情況:2010~2013年,主要以10G NRZ技術(shù)為主;2013~2018年,以25G NRZ技術(shù)為主的100G光模塊為主,對應(yīng)的交找機(jī)芯片是3.2T和6.4T;2018年,出現(xiàn)了12.8T的基于50G PAM4的芯片,基于56G PAM4技術(shù)的可能存在三種形態(tài):QSFP 56 200G,QSFP-DD 400G以及QSFP 2*200G的網(wǎng)絡(luò)架構(gòu);從2020年至今,25.6T交換機(jī)芯片的發(fā)布,基于56G和112G兩種;預(yù)計2022年或2023年將會有基于112G的51.2T Serdes面世;再之后可能就是102.4T。
    回顧過去光互聯(lián)技術(shù)的發(fā)展,可以看到交換機(jī)芯片的帶寬基本上是每兩年翻一倍,Serdes的速率是每四年翻一倍,如此推算,102.4T大概率會是基于224G的,基于224G Serdes到底是部署CPO還是可插拔的光模塊? 從目前的情況來看, 1.6T的可插拔光模塊仍在陸陸續(xù)續(xù)地研發(fā)。
    目前百度的網(wǎng)絡(luò)架構(gòu)主流的部署還是2*25G為主,下一代規(guī)劃是4.0的網(wǎng)絡(luò)架構(gòu),將會是基于400G的交換機(jī)的形態(tài),采用的是56G PAM4;與此同時百度規(guī)劃了DCN 5.0的網(wǎng)絡(luò)架構(gòu),主要是考慮應(yīng)用基于112G PAM4的技術(shù),但最終選擇400G還是800G,具體需要根據(jù)業(yè)務(wù)流量,集群規(guī)模做出相關(guān)調(diào)整,也可能兩種形態(tài)都會規(guī)劃。再往后是1.6T CPO PAM4,郭總認(rèn)為51.2T的CPO會有小規(guī)模部署,但大規(guī)模部署可能不切實(shí)際,因?yàn)镃PO最大的問題就是如何運(yùn)維?
三、數(shù)據(jù)中心光互聯(lián)部署的趨勢
   郭總介紹,在去年百度開始部署了25G DAC,無論是從成本、資本支出、可靠性來看都是不錯的。下一步延伸將會基于50G PAM4,但在跨柜的連接更期待 ACC技術(shù),因?yàn)榉⻊?wù)器與交換機(jī)的互聯(lián)會是海量的部署需求,期待看到更低成本的解決方案。從ACC的供應(yīng)來看,品質(zhì)與交付都能很好地完成,但截止目前可批量交付的芯片玩家卻只有一家,期待更多的廠商關(guān)注。
    郭總認(rèn)為再下一步,將會部署400G DR4及FR4,在DR4方案更看好硅光,并期待硅光800G CPO。從當(dāng)前400G,800G相關(guān)的模塊MSA來看,更多的是基于電信號112G以上的,對于400G郭總認(rèn)為4通道從成本、失效率等角度來講依然更低,所以更期待基于Q112的相關(guān)產(chǎn)品。
    下一代到底是可插拔還是CPO?從郭總的角度,百度在去年于對400G做過評估,發(fā)現(xiàn)400G的成本遠(yuǎn)高于100G單G的成本,而且功耗更大,400G網(wǎng)絡(luò)要想做到批量部署,需要和當(dāng)前100G網(wǎng)絡(luò)單G成本對齊。另外,從目前技術(shù)和市場看,200Gbps/Lane 可插拔模塊可以支持,但200Gbps/Lane +是否適合可插拔的方式,有待業(yè)界進(jìn)一步探討。 CPO的優(yōu)勢完全可以解決這些痛點(diǎn)嗎?CPO的優(yōu)勢如低功耗、高密度、低成本、信號完整性等等,但同樣面臨自己的問題,如封裝、運(yùn)維、熱管理、I/O怎么做,生態(tài)是否成熟?
 
    流量激增,網(wǎng)絡(luò)的變化也在影響成本的變化,早期部署40G模塊時,模塊成本占比約30%;而到了400G時,成本激增到70%。同時功耗也是在整機(jī)的占比也隨著速率的提升在增加。
   談到DCN網(wǎng)絡(luò)設(shè)備的變化趨勢,郭總表示以前是商用設(shè)備為主,功能更完善,系統(tǒng)更復(fù)雜一些。下一步會把控制面和管理面分離,控制面可以具備全局的視野對整個網(wǎng)絡(luò)進(jìn)行管控,弱化交換機(jī)的功能加速白盒設(shè)備,也可以跟上互聯(lián)網(wǎng)對于網(wǎng)絡(luò)架構(gòu)迭代的時間點(diǎn)。
四、數(shù)據(jù)中心光互聯(lián)組網(wǎng)規(guī)模、運(yùn)維模式的變化趨勢
   對于下一代DCN光互聯(lián)組網(wǎng)規(guī)模變化,郭總表示:以前主要以典型clos架構(gòu)為主,未來則是多平面,以解決跨集群帶寬的問題,也可以做到橫向延伸。未來從leaf、spine到DC層級會采用25.6T或者是51.2T單芯片的設(shè)備;在TOR這一層采用的是8.0T或者是12.8T單芯片的設(shè)備;對于TOR和服務(wù)器互聯(lián)來說,我們有存儲POD和AI POD,所以希望網(wǎng)絡(luò)架構(gòu)相對比較靈活,可以有50G、100G、200G、400G的接入,分POD去部署。在交換機(jī)上連會考慮400G SR8、DR4以及FR4。
    對于下一代DCN網(wǎng)絡(luò)運(yùn)維。郭總表示百度100G也部署了好幾年,對于早期來說能監(jiān)控的參數(shù)只有DDM的參數(shù),如溫度、電壓、電流、Tx Power&Rx Power,但這遠(yuǎn)遠(yuǎn)不夠。從400G開始,我們會加大DCN光網(wǎng)絡(luò)運(yùn)維的情況。我們從兩方面著手:一是從模塊的角度,除了目前的DDM的監(jiān)測之外,也會定制SNR、BER的監(jiān)控等等。與此同時我們會跟交換機(jī)的link特性結(jié)合起來,抖動的特性、或者CRC、丟包、時延、Fault等數(shù)據(jù)。兩部分?jǐn)?shù)據(jù)結(jié)合,同時建立生命周期管理模型,期望達(dá)到端到端自動優(yōu)化的功能,同時可以做到主動觸發(fā)。我們便有了提前預(yù)知、預(yù)判的能力,提前對光模塊進(jìn)行更換。