微電子所存算一體芯片論文入選ISSCC 2025大會
發(fā)布時間:2025-02-17 09:28:53 熱度:912
2/17/2025,光纖在線訊,當前,邊緣智能計算設備部署神經網絡時,往往需要通過訓練微調以提升網絡精度。但基于遠程云端訓練的方法存在高延遲、高功耗以及存在隱私泄露風險等缺點,因此,實現(xiàn)支持本地訓練的存算一體技術至關重要。傳統(tǒng)的存算一體宏僅支持網絡推理,無法進行網絡訓練所需要的轉置運算?,F(xiàn)有方案無法對訓練中的前向與反向傳播過程中的乘累加電路進行有效的復用,造成了功耗和面積上的浪費,且僅支持定點數(shù)制的模擬存算方案,在精度上也存在較大的缺陷。如何有效實現(xiàn)支持轉置操作的高能效、高精度的存算一體宏,是當前存算一體領域亟須解決的問題。
針對以上問題,集成電路制造技術全國重點實驗室張鋒研究員團隊設計出可轉置的近似精確雙模浮點存算一體宏芯片。通過提出的循環(huán)權重映射SRAM方案,芯片可在前向與反向傳播時復用乘加單元,在實現(xiàn)了轉置功能的同時,相對之前的轉置存算一體宏單元大大提升了能效與算力密度。通過提出的有符號定點尾數(shù)編碼方式與向量粒度預對齊方案,芯片實現(xiàn)了多種浮點、定點數(shù)制的兼容支持,相較于傳統(tǒng)的粗粒度浮點預對齊方案有著更小的精度損失。通過提出的近似精確雙模的乘加電路設計,芯片可在精度要求低的推理環(huán)節(jié)時開啟近似模式,從而獲得12%的速度提升與45%的能耗降低,可在精度要求高的訓練環(huán)節(jié)時開啟精確模式確保沒有精度損失。該存算一體宏芯片在28nm CMOS工藝下流片,可支持BF16、FP8浮點精度運算以及INT8、INT4定點精度運算。BF16浮點矩陣-矩陣-向量計算均值能效達到48TFLOP/W,峰值能效達到100TFLOPS/W;FP8浮點矩陣-矩陣-向量計算均值能效達到192.3TFLOP/W,峰值能效達到400TFLOPS/W。這一研究結果為應用于邊緣端訓練的存算一體架構芯片提供了新思路。
上述工作以“A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference”為題入選 ISSCC 2025。微電子所博士生袁易揚為第一作者,張鋒研究員與北京理工大學李瀟然助理教授為通訊作者。該研究成果得到了科技部重點研發(fā)計劃、國家自然科學基金、中國科學院戰(zhàn)略先導專項等項目的支持。
圖1. 28nm 基于外積的數(shù)?;旌细↑c存算一體宏芯片:(a)芯片顯微鏡照片,(b)芯片特性總結表。
針對以上問題,集成電路制造技術全國重點實驗室張鋒研究員團隊設計出可轉置的近似精確雙模浮點存算一體宏芯片。通過提出的循環(huán)權重映射SRAM方案,芯片可在前向與反向傳播時復用乘加單元,在實現(xiàn)了轉置功能的同時,相對之前的轉置存算一體宏單元大大提升了能效與算力密度。通過提出的有符號定點尾數(shù)編碼方式與向量粒度預對齊方案,芯片實現(xiàn)了多種浮點、定點數(shù)制的兼容支持,相較于傳統(tǒng)的粗粒度浮點預對齊方案有著更小的精度損失。通過提出的近似精確雙模的乘加電路設計,芯片可在精度要求低的推理環(huán)節(jié)時開啟近似模式,從而獲得12%的速度提升與45%的能耗降低,可在精度要求高的訓練環(huán)節(jié)時開啟精確模式確保沒有精度損失。該存算一體宏芯片在28nm CMOS工藝下流片,可支持BF16、FP8浮點精度運算以及INT8、INT4定點精度運算。BF16浮點矩陣-矩陣-向量計算均值能效達到48TFLOP/W,峰值能效達到100TFLOPS/W;FP8浮點矩陣-矩陣-向量計算均值能效達到192.3TFLOP/W,峰值能效達到400TFLOPS/W。這一研究結果為應用于邊緣端訓練的存算一體架構芯片提供了新思路。
上述工作以“A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference”為題入選 ISSCC 2025。微電子所博士生袁易揚為第一作者,張鋒研究員與北京理工大學李瀟然助理教授為通訊作者。該研究成果得到了科技部重點研發(fā)計劃、國家自然科學基金、中國科學院戰(zhàn)略先導專項等項目的支持。
圖1. 28nm 基于外積的數(shù)?;旌细↑c存算一體宏芯片:(a)芯片顯微鏡照片,(b)芯片特性總結表。


