11/15/2023,光纖在線訊,一年一度的超級計(jì)算大會SC本月12日到17日在美國丹佛舉辦。作為IEEE和美國計(jì)算機(jī)協(xié)會聯(lián)合主辦的HPC高性能計(jì)算領(lǐng)域最著名的國際性盛會,每年都會吸引一些領(lǐng)先的光通信企業(yè)參加。今年的SC23上,就有中航光電攜數(shù)據(jù)中心互連解決方案參展。中航的方案包含機(jī)柜和板載數(shù)據(jù)交換、機(jī)柜和板間功率傳輸、機(jī)房液冷散熱系統(tǒng)和機(jī)房網(wǎng)絡(luò)信號傳輸?shù)取?
HPC和光連接有著密切的聯(lián)系。正因?yàn)槿绱耍m然我們一直沒有參加過這個(gè)展會,但是從未失去關(guān)注。今年的科技熱點(diǎn)是AI,SC23上,用于AI的超級計(jì)算機(jī)成為競爭熱點(diǎn)。英特爾成為第一個(gè)報(bào)道這方面進(jìn)展的參展企業(yè)。
 
在本次SC23上,英特爾宣布,有望成為世界上最快超算的美國能源部超級計(jì)算機(jī)Aurora由10000多臺服務(wù)器組成的,配備了約21000個(gè)英特爾CPU和60000個(gè)GPU。目前,Aurora僅使用10000多臺服務(wù)器中的64臺就成功運(yùn)行了具有1萬億個(gè)參數(shù)的AI模型。此外,研究人員設(shè)法在256個(gè)節(jié)點(diǎn)上同時(shí)運(yùn)行4個(gè)這樣的模型。
Aurora中的Max系列GPU是基于英特爾內(nèi)部開發(fā)的Xe HPC架構(gòu)。英特爾還公布了第二款A(yù)I處理器Gaudi 2,它針對許多相同的用例。也在本次SC23發(fā)布的升級版Gaudi 3,將采用5納米工藝制造,前身是作為單片硅實(shí)現(xiàn)的,而Gaudi 3則是包含了兩個(gè)獨(dú)立的小芯片。
相比Aurora系統(tǒng)2  ExaFlops(百億億次)的計(jì)算能力,中國的“神威·太湖之光”升級版可以達(dá)到1.5 ExaFlops,并也將在SC23上發(fā)布其科研成果。根據(jù)介紹,海洋之光擁有超過 10 萬個(gè)定制的 SW26010 Pro 處理器節(jié)點(diǎn),分布在 105 個(gè)機(jī)柜中,其理論峰值性能為 1.5 E。未來如果可以升級到160個(gè)機(jī)柜,計(jì)算能力可以超過Aurora。
今年最火的公司NVIDIA自然也不會缺席SC23。13日,該公司在SC23上發(fā)布了全球最強(qiáng)AI芯片H200,相比其前一代產(chǎn)品H100,性能提升約60%到90%。H200是英偉達(dá)H100的升級版,兩者同樣基于Hopper架構(gòu),H200主要升級包括141GB的HBM3e顯存,顯存帶寬從H100的3.35TB/s增加到了4.8TB/s。這一改進(jìn)將有助于芯片進(jìn)行“推理”,或者在訓(xùn)練后使用大模型來生成文本、圖像或預(yù)測。英偉達(dá)表示,在處理Meta的大語言模型Llama2(700億參數(shù))時(shí),H200的推理速度比H100提高了將近1倍。
在SC23大會上,多家頂級超算中心紛紛宣布,即將使用GH200系統(tǒng)構(gòu)建自己的超級計(jì)算機(jī)。德國尤里希超級計(jì)算中心將在超算JUPITER中使用GH200超級芯片。這臺超級計(jì)算機(jī)將成為歐洲第一臺超大規(guī)模超級計(jì)算機(jī),是歐洲高性能計(jì)算聯(lián)合項(xiàng)目的一部分。由筑波大學(xué)和東京大學(xué)共同成立的日本先進(jìn)高性能計(jì)算聯(lián)合中心,將在下一代超級計(jì)算機(jī)中采用英偉達(dá)GH200 Grace Hopper超級芯片構(gòu)建。
超級計(jì)算是人工智能的依托。光互聯(lián)又是超級計(jì)算的關(guān)鍵技術(shù)之一。關(guān)注SC23,也是關(guān)注光通信的未來。讓我們拭目以待,今年的超算大會還會給我們帶來什么?