[發明專利]一種算法與硬件協同優化的混合精度存內計算加速器在審
| 申請號: | 202011424498.6 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN114611680A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 楊永魁;陳瑞;王崢;陳超;喻之斌 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/04 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 范盈 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 算法 硬件 協同 優化 混合 精度 計算 加速器 | ||
本發明公開了一種算法與硬件協同優化的混合精度存內計算加速器,包括池化模塊、累加模塊、激活模塊、全局緩沖模塊及若干個分片模塊。該加速器在神經網絡準確度損失有限的范圍內,大幅縮減存內計算加速器的硬件開銷。并且,本發明利用神經網絡各層輸入激勵的特點,在神經網絡部署中,靈活調整神經網絡各層的部署策略,使得存內計算加速器在芯片面積與運算能力之間達到最優化。
技術領域
本發明屬于電子信息技術技術領域,涉及一種算法與硬件協同優化的混合精度存內計算加速器。
背景技術
近年來,神經網絡憑借其在圖像檢測和目標分類中的優越性能,被廣泛地研究和應用。當前主流的神經網絡的連接點都數以億計,是一種訪存密集型和計算密集型的計算模式。龐大的神經網絡模型導致它們很難被部署到硬件資源和能耗都受限的嵌入式系統中。
為了解決這些問題,在算法方面,目前最熱門的技術就是對神經網絡中的權重進行二值化處理,從而極大地減少神經網絡加速器的數據搬移與計算。但二值化神經網絡的推理準確度損失較大,系統穩定性有待考證。
在硬件方面,最近許多研究工作表明,避免不必要數據搬移的存內計算加速器是有望解決基于馮·諾依曼加速器中“存儲墻”的問題。例如,相比于馮·諾依曼加速器,一種支持量化神經網絡的基于DRAM的存內計算加速器架構DRISA,實現了8.8倍的速度提升和1.2倍的能效提升。也有人提出支持二值化神經網絡的存內計算加速器,如NAND-Net,用于減少存內計算硬件開銷。
現有的支持神經網絡推理的存內計算可分為支持量化神經網絡(如8位量化)的存內計算加速器和支持二值化神經網絡的存內計算加速器。支持量化神經網絡的存內計算加速器雖然可以達到與全精度相當的神經網絡準確度,但其模型尺寸大。與此帶來的不僅是所需的存儲單元多,而且存內計算加速器中的外圍電路(包括模數轉換器、移位器、加法器、解碼器、緩沖器等)的硬件成本也會成倍增加。與此同時,這些外圍電路的面積、延遲和功耗通常占存內計算加速器的大部分。另一方面,支持二值化神經網絡的存內計算加速器,如NAND-Net,雖然其硬件開銷減少了,但犧牲了神經網絡的準確度。因此,現有技術難以兼顧神經網絡準確度高與存內計算加速器硬件開銷小的技術難題。
發明內容
本發明的目的是提供一種算法與硬件協同優化的混合精度存內計算加速器,該加速器在神經網絡準確度損失有限的范圍內,大幅縮減存內計算加速器的硬件開銷。
本發明所采用的技術方案是,一種算法與硬件協同優化的混合精度存內計算加速器,包括池化模塊、累加模塊、激活模塊、全局緩沖模塊及若干個分片模塊。
本發明的特點還在于:
分片模塊中包括處理單元PE。
處理單元PE包括若干個突觸陣列、PE緩沖器、累加器及輸出緩沖器。
突觸陣列包括存儲單元陣列、模數轉換器ADC、位線譯碼器、字線譯碼器、模擬多路選擇器、位移寄存器。
加速器用于支持混合精度神經網絡,通過Caffe平臺、Tensorflow平臺、或者Pytorch平臺對神經網絡進行分層混合精度量化。
每層神經網絡按各自的量化精度,部署到分片模塊中。
如果一個分片模塊不足以部署某一層的權重,則使用多個相同的分片模塊。
部署不同的神經網絡層的分片模塊,該分片模塊的內部電路設計不一定相同。
部署同一層神經網絡的分片模塊,該分片模塊的內部電路設計完全一致。
神經網絡層的權重、激勵用低位寬的權重代替了全精度位寬或者8位位寬。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011424498.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:單向閥式管道
- 下一篇:基于EM算法的動態PET參數圖像分部重建算法





