導(dǎo)讀:據(jù)外媒報道,英偉達(dá)最新AI芯片Blackwell因機架過熱和連接異常故障,導(dǎo)致微軟、亞馬遜AWS、谷歌、Meta等客戶削減訂單,股價一度重挫近5%。
1/15/2025,光纖在線訊,美國時間 1 月 13 日,英偉達(dá)最新一代人工智能芯片 Blackwell 在部署至數(shù)據(jù)中心時遭遇嚴(yán)重技術(shù)問題,引發(fā)行業(yè)震動。其主要故障表現(xiàn)為服務(wù)器機架過熱及芯片連接異常,這對數(shù)據(jù)中心的部署進(jìn)程形成了極大阻礙。
微軟、亞馬遜旗下 AWS、谷歌、Meta 等英偉達(dá)的重要客戶紛紛削減了部分 Blackwell GB200 機架的訂單。這些科技巨頭原本對 Blackwell 芯片寄予厚望,因其與上一代產(chǎn)品 Hopper 相比,能源效率大幅提高了四倍。此前每家公司都下達(dá)了價值超 100 億美元的訂單,但如今的技術(shù)問題使他們改變了計劃。
以微軟為例,作為 OpenAI 的服務(wù)器提供商,原計劃在鳳凰城的一個設(shè)施中安裝至少包含 5 萬枚 Blackwell 芯片的 GB200 機架。然而,由于 Blackwell 芯片自去年起便延遲交付,OpenAI 要求微軟盡早提供上一代英偉達(dá) H200 芯片,致使鳳凰城數(shù)據(jù)中心如今已裝滿 H200 芯片。目前微軟計劃在今年 3 月于該設(shè)施中安裝約 12000 枚 Blackwell 芯片的 GB200 機架,僅約為最初計劃的四分之一,且還打算在今年晚些時候 GB300 Blackwell 機架上市時進(jìn)行采購。
2024年11月時,英偉達(dá)首席執(zhí)行官黃仁勛曾表示,Blackwell芯片已全面投產(chǎn),預(yù)計未來幾個季度供不應(yīng)求,且最新財季銷售有望超預(yù)期。但此前有報道稱,英偉達(dá)在裝有 72 個處理器的服務(wù)器中使用時,每個機架的功耗可能高達(dá) 120 千瓦,產(chǎn)生嚴(yán)重過熱現(xiàn)象,不僅限制了 GPU 性能,還增加了組件損壞風(fēng)險,給數(shù)據(jù)中心的散熱和電力供應(yīng)以及新數(shù)據(jù)中心啟用和運營帶來諸多挑戰(zhàn),盡管黃仁勛否認(rèn)了這一報道,但英偉達(dá)的 Blackwell 芯片之后也經(jīng)歷了多次延遲交付,此次又因過熱和互聯(lián)故障等問題再次延遲交付。部分客戶在削減訂單后,開始尋求替代方案。一些客戶選擇等待可能在今年下半年推出的改進(jìn)版本,另一些則計劃采購英偉達(dá)的舊款 AI 芯片。盡管英偉達(dá)推薦整機架方案,但部分客戶傾向于單獨購買 Blackwell 芯片自行組裝。
受此消息影響,英偉達(dá)股價在美股早盤一度跌超 4.7%,最終收跌 1.97%。目前尚不清楚客戶削減訂單是否會對英偉達(dá)銷售造成長期影響,畢竟可能存在其他買家購買問題 GB200 服務(wù)器機架。此外,美國政府于 1 月 13 日發(fā)布的人工智能相關(guān)出口管制措施,也可能對英偉達(dá)等美國主要芯片企業(yè)產(chǎn)生影響。英偉達(dá)公司已發(fā)表聲明,批評該管制措施會 “阻礙技術(shù)革新和經(jīng)濟(jì)增長”,其生產(chǎn)的尖端 AI 半導(dǎo)體預(yù)計將成為管制對象。
【編者短評】
此次英偉達(dá)AI芯片Blackwell的故障事件,不僅對英偉達(dá)自身的業(yè)務(wù)發(fā)展產(chǎn)生了重大影響,也引發(fā)了整個行業(yè)對AI芯片技術(shù)研發(fā)和供應(yīng)鏈穩(wěn)定性的深入思考。一方面,這凸顯了在高性能計算領(lǐng)域,技術(shù)進(jìn)步與產(chǎn)品穩(wěn)定性之間需要找到更好的平衡。英偉達(dá)作為行業(yè)領(lǐng)導(dǎo)者,在追求更高性能的同時,必須更加注重產(chǎn)品的可靠性和穩(wěn)定性,以避免類似事件的再次發(fā)生。
另一方面,這一事件也為英偉達(dá)的競爭對手提供了機遇。AMD和其他高性能計算解決方案提供商可能會吸引英偉達(dá)的客戶群體,尤其是在這些客戶面臨推遲交付的問題時,這也促使消費者在選擇硬件時更加關(guān)注產(chǎn)品的穩(wěn)定性與性價比,尤其是在AI和云計算逐漸成為市場主流的背景下。
光纖在線公眾號
更多猛料!歡迎掃描左方二維碼關(guān)注光纖在線官方微信