10/20/2025,光纖在線訊,2025年10月18日,在韓國首爾舉辦的第31屆操作系統(tǒng)原理研討會(SOSP)上,阿里云發(fā)布的“Aegaeon”計算池化解決方案研究成果成功入選。
該方案創(chuàng)新性地解決了AI模型服務(wù)中普遍存在的GPU資源浪費問題,在阿里云模型市場測試中,實現(xiàn)了英偉達(dá)GPU用量大幅削減82%的顯著成效。
SOSP(操作系統(tǒng)原理研討會)由ACM SIGOPS主辦,是計算機(jī)系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議,平均每年收錄的論文數(shù)量僅有數(shù)十篇, 被譽(yù)為計算機(jī)操作系統(tǒng)界的“奧斯卡”,本屆SOSP大會僅收錄66篇論文。
阿里Aegaeon 系統(tǒng)
云服務(wù)商當(dāng)前在提供 AI 模型服務(wù)時,面臨著嚴(yán)重的資源效率低下問題。平臺需要同時托管數(shù)千個 AI 模型以處理海量并發(fā) API 調(diào)用,但用戶請求往往高度集中在少數(shù)幾個熱門模型上,例如阿里巴巴的 Qwen 系列模型。研究人員發(fā)現(xiàn),這種“長尾效應(yīng)”導(dǎo)致了嚴(yán)重的資源閑置:在阿里云的模型市場中,竟有 17.7% 的 GPU 算力僅被用于處理 1.35% 的請求,造成了巨大的成本浪費。為解決這一痛點,Aegaeon 系統(tǒng)應(yīng)運而生。它通過創(chuàng)新的 GPU 資源池化技術(shù),允許單個 GPU 動態(tài)服務(wù)于多個不同的 AI 模型,打破了以往 GPU 與特定模型綁定的低效模式。
在阿里云模型市場進(jìn)行的為期超過三個月的 Beta 測試中,Aegaeon 系統(tǒng)展現(xiàn)了卓越的效能。測試數(shù)據(jù)顯示,服務(wù)數(shù)十個參數(shù)量高達(dá) 720 億的大模型,所需的英偉達(dá) H20 GPU 數(shù)量從 1192 個成功減少至 213 個,數(shù)量削減高達(dá) 82%。
這項由北京大學(xué)與阿里云合作的研究成果,被認(rèn)為是“首個揭示并解決市場上并發(fā)大語言模型服務(wù)存在過高成本”的公開工作,為行業(yè)提供了全新的優(yōu)化思路。
值得一提的是,阿里云首席技術(shù)官周靖人也是該論文的作者之一。周靖人是國際電氣與電子工程師協(xié)會會士(IEEE Fellow),國際計算機(jī)協(xié)會會士(ACM Fellow),阿里巴巴集團(tuán)副總裁,阿里云智能 CTO、達(dá)摩院副院長。
如何從底層系統(tǒng)軟件層面優(yōu)化,以更好地支撐和賦能上層AI應(yīng)用,已成為全球?qū)W術(shù)界和工業(yè)界關(guān)注的焦點。未來AI的發(fā)展將不僅依賴于硬件算力的單純增長,更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。