百度萬(wàn)昳：從DCN到HPN 光互聯(lián)的演進(jìn)與革新

光纖在線編輯部 2024-07-10 12:25:48 文章來(lái)源：本站消息版權(quán)所有,未經(jīng)許可嚴(yán)禁轉(zhuǎn)載.

瀏覽量：

導(dǎo)讀：百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬(wàn)昳解析AI時(shí)代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）之間的差異與光互聯(lián)的機(jī)遇。

7/10/2024，光纖在線訊，隨著大模型等AI人工智能技術(shù)的進(jìn)一步廣泛應(yīng)用，正推通光通信產(chǎn)業(yè)從通用計(jì)算全面邁向智算時(shí)代，而這一背景下的光互聯(lián)正發(fā)生著巨大的變化。

在最近舉行的CFCF2024光連接大會(huì)上，百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬(wàn)昳強(qiáng)調(diào)了AI時(shí)代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）之間的顯著差異。這些差異不僅為光通信行業(yè)帶來(lái)了一系列新的挑戰(zhàn)，同時(shí)也帶來(lái)了前所未有的機(jī)遇。具體來(lái)說(shuō)，包括光互聯(lián)方案的多樣化發(fā)展、硅光技術(shù)的廣闊應(yīng)用前景，以及低功耗光模塊技術(shù)TRO和LPO的新機(jī)遇。

百度網(wǎng)絡(luò)系統(tǒng)部光網(wǎng)絡(luò)架構(gòu)師，萬(wàn)昳

隨著人工智能技術(shù)的飛速發(fā)展，特別為AI設(shè)計(jì)的高性能智算網(wǎng)絡(luò)集群（HPN）在網(wǎng)絡(luò)架構(gòu)和光互聯(lián)需求上與傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）呈現(xiàn)出根本性的差異。這種差異化需求正推動(dòng)著光互聯(lián)解決方案的創(chuàng)新與進(jìn)步。

AI技術(shù)對(duì)網(wǎng)絡(luò)架構(gòu)提出了更高的要求，包括但不限于以下幾點(diǎn)：
1. 強(qiáng)擴(kuò)展性：AI網(wǎng)絡(luò)架構(gòu)需要具備強(qiáng)大的擴(kuò)展能力，采用二層或三層網(wǎng)絡(luò)結(jié)構(gòu)，以支持AI集群的靈活擴(kuò)展。
2. 大規(guī)模分布式計(jì)算：面對(duì)千億甚至萬(wàn)億參數(shù)的AI模型，需要多機(jī)多卡的分布式計(jì)算能力，以支持大規(guī)模算力集群。
3. 超高帶寬需求：隨著數(shù)據(jù)傳輸需求的增加，當(dāng)前網(wǎng)絡(luò)到服務(wù)器的連接已經(jīng)越來(lái)越多地采用400G速率，而未來(lái)，無(wú)論是頂端的TOR（Top of Rack）到服務(wù)器連接，還是數(shù)據(jù)中心內(nèi)部的連接，都將邁向800G速率。
4. 多導(dǎo)軌設(shè)計(jì)：通過(guò)采用多導(dǎo)軌設(shè)計(jì)，可以減少GPU之間的互訪路徑跳數(shù)，降低擁塞和冗余，從而提高GPU的利用率。
5. 穩(wěn)定性：AI訓(xùn)練往往涉及大規(guī)模的任務(wù)啟動(dòng)，對(duì)網(wǎng)絡(luò)穩(wěn)定性的要求極高，以避免因網(wǎng)絡(luò)問(wèn)題導(dǎo)致訓(xùn)練回退，造成不必要的延時(shí)。
6. 可運(yùn)維性：與對(duì)時(shí)效性和檢測(cè)性有一定容忍度的傳統(tǒng)數(shù)據(jù)中心不同，AI訓(xùn)練中心期望能夠快速進(jìn)行異常檢測(cè)和處理，以保證訓(xùn)練過(guò)程的連續(xù)性和效率。
這些需求的提出，不僅為光通信行業(yè)帶來(lái)了挑戰(zhàn)，也為技術(shù)創(chuàng)新和解決方案的優(yōu)化提供了廣闊的空間。

傳統(tǒng)數(shù)據(jù)中心是以服務(wù)器為中心作機(jī)房物理排布，但AI數(shù)據(jù)中心會(huì)以網(wǎng)絡(luò)為中心，在每一層級(jí)互聯(lián)之間距離達(dá)到等長(zhǎng)，避免最小的時(shí)延和距離，所以在工程布程都發(fā)生了改變。數(shù)據(jù)中心也發(fā)生了變化，Copper最大的特點(diǎn)是成本低，在傳統(tǒng)數(shù)據(jù)中心TOR-Server通常采用Copper的比例很高，包括10G/ 25G /100G/ 200G性能都不錯(cuò)。但在AI數(shù)據(jù)中心，電力不夠，服務(wù)器、網(wǎng)絡(luò)設(shè)備要做一定的拉遠(yuǎn)，銅線的性能不夠，光互聯(lián)會(huì)更多，但仍然在努力在穩(wěn)定性和距離上進(jìn)行優(yōu)化。但在面向未來(lái)高密度的需求，柜內(nèi)的芯片互聯(lián)，也將會(huì)考慮采用Copper進(jìn)入互聯(lián)。

對(duì)于硅光技術(shù)的引入，萬(wàn)昳認(rèn)為：全球范圍內(nèi)AI建設(shè)，光模塊的海量需求，而當(dāng)下多模方案面臨光芯片供應(yīng)問(wèn)題，給硅光技術(shù)帶來(lái)機(jī)會(huì)；面向長(zhǎng)距離EML方案的供應(yīng)、功耗、成本也均面臨著挑戰(zhàn)，硅光技術(shù)依然具備一定的機(jī)會(huì)；而在面向各種光模塊的技術(shù)平臺(tái)持續(xù)發(fā)展的方案中，硅光技術(shù)也可支持DSP、LPO，TRO，CPO等，以及走向Optical IO芯片互聯(lián)。具體的節(jié)點(diǎn)上，用于400G及800G應(yīng)用的 112G Serdes 硅光技術(shù)將會(huì)成為重點(diǎn)方案。

針對(duì)LRO/TRO的方案，可能為HPN的重要方案，具體的技術(shù)引入，業(yè)界正基于400G 開(kāi)始進(jìn)行LPO/TRO光模塊技術(shù)評(píng)估，根據(jù)評(píng)估數(shù)據(jù)及性能表現(xiàn)預(yù)計(jì)將在800G/1.6T時(shí)代展開(kāi)更多的應(yīng)用。總體來(lái)看，無(wú)論哪種方案，隨著Serdes速率提升，高速信號(hào)完整性受到挑戰(zhàn)；系統(tǒng)功耗不斷增加，進(jìn)而面臨散熱的瓶頸。但在長(zhǎng)期演進(jìn)路線來(lái)看，技術(shù)條件可滿足的情況下，可插拔依然是綜合更優(yōu)選的方案。

關(guān)鍵字：百度 AI 數(shù)據(jù)中心

編輯：Ria

合作轉(zhuǎn)載

光纖在線公眾號(hào)

更多猛料！歡迎掃描左方二維碼關(guān)注光纖在線官方微信

97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

百度萬(wàn)昳：從DCN到HPN 光互聯(lián)的演進(jìn)與革新

更多關(guān)于百度 AI 數(shù)據(jù)中心的新聞

相關(guān)產(chǎn)品

熱門(mén)搜索

熱門(mén)新聞

最新簡(jiǎn)歷

展會(huì)速遞

97色蜜桃,性少妇freesexvideos强迫,三个男人玩弄娇妻高潮,美女扒开腿让男人桶爽30分钟,中文字幕,内射

百度萬(wàn)昳：從DCN到HPN 光互聯(lián)的演進(jìn)與革新

更多關(guān)于 百度 AI 數(shù)據(jù)中心 的新聞

相關(guān)產(chǎn)品

熱門(mén)搜索

熱門(mén)新聞

最新簡(jiǎn)歷

展會(huì)速遞

更多關(guān)于百度 AI 數(shù)據(jù)中心的新聞