[發(fā)明專(zhuān)利]一種硬件加速器的激勵(lì)數(shù)據(jù)分塊處理方法及硬件加速器有效
| 申請(qǐng)?zhí)枺?/td> | 202111384780.0 | 申請(qǐng)日: | 2021-11-22 |
| 公開(kāi)(公告)號(hào): | CN114065927B | 公開(kāi)(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計(jì))人: | 賀迅;馬建平;劉友江;曹韜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)工程物理研究院電子工程研究所 |
| 主分類(lèi)號(hào): | G06N3/063 | 分類(lèi)號(hào): | G06N3/063;G06N3/0464 |
| 代理公司: | 中國(guó)工程物理研究院專(zhuān)利中心 51210 | 代理人: | 任正平 |
| 地址: | 621999*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 硬件 加速器 激勵(lì) 數(shù)據(jù) 分塊 處理 方法 | ||
本發(fā)明公開(kāi)了一種硬件加速器的激勵(lì)數(shù)據(jù)分塊處理方法及硬件加速器,該方法包括步驟:1)AI硬件加速器在卷積網(wǎng)絡(luò)并行計(jì)算時(shí),將卷積層分割為淺層卷積層和深層卷積層;2)AI硬件加速器將淺層卷積層分塊;3)AI硬件加速器對(duì)分塊后的淺層卷積層進(jìn)行計(jì)算;4)AI硬件加速器將完成所有淺層卷積層計(jì)算后得到的結(jié)果合并后作為深層卷積層的輸入數(shù)據(jù),進(jìn)行深層卷積層計(jì)算。該硬件加速器共享激勵(lì)數(shù)據(jù)存儲(chǔ)單元及寄存器陣列,硬件加速器對(duì)卷積神經(jīng)網(wǎng)絡(luò)的激勵(lì)數(shù)據(jù)進(jìn)行分塊并行處理,并將分塊后的激勵(lì)數(shù)據(jù)存儲(chǔ)于共享激勵(lì)數(shù)據(jù)存儲(chǔ)單元中,以實(shí)現(xiàn)硬件加速器激勵(lì)數(shù)據(jù)片外數(shù)據(jù)訪問(wèn)為0。本發(fā)明實(shí)現(xiàn)了片外數(shù)據(jù)訪問(wèn)為0,大幅降低AI加速器的片內(nèi)SRAM資源需求。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字信號(hào)處理技術(shù)領(lǐng)域,尤其涉及硬件加速器設(shè)計(jì)方法領(lǐng)域,具體涉及一種硬件加速器的激勵(lì)數(shù)據(jù)分塊處理方法及硬件加速器。
背景技術(shù)
在人工智能、并行計(jì)算等領(lǐng)域,存在大量的多維矩陣運(yùn)算。為了實(shí)現(xiàn)實(shí)時(shí)信號(hào)處理,AI硬件加速器通常集成多個(gè)并行計(jì)算單元,對(duì)數(shù)據(jù)進(jìn)行并行計(jì)算實(shí)現(xiàn)快速推理計(jì)算。如何通過(guò)具備并行計(jì)算能力的硬件平臺(tái),實(shí)現(xiàn)高效的并行計(jì)算是AI硬件加速器設(shè)計(jì)的一大難點(diǎn),主要難點(diǎn)在于:數(shù)據(jù)讀取,特別是片外DRAM數(shù)據(jù)的讀取的能耗遠(yuǎn)高于加法、乘法運(yùn)算的能耗。因此在并行計(jì)算過(guò)程中如何在有限的片內(nèi)存儲(chǔ)資源的條件下,降低片外DRAM數(shù)據(jù)訪問(wèn),是降低AI硬件加速器功耗的關(guān)鍵技術(shù)。因此如何在并行計(jì)算過(guò)程中,通過(guò)合理的處理流程設(shè)計(jì),提高數(shù)據(jù)復(fù)用,降低AI硬件加速器每次并行計(jì)算所需的數(shù)據(jù)是提高硬件性能的關(guān)鍵技術(shù)。
在卷積神經(jīng)網(wǎng)絡(luò)(CNN)硬件加速推理計(jì)算中,存在典型的非恒定多維矩陣的大規(guī)模并行計(jì)算需求。在CNN網(wǎng)絡(luò)中,計(jì)算過(guò)程由多個(gè)卷積層計(jì)算及全連接層(FC)計(jì)算構(gòu)成。在卷積層的迭代計(jì)算過(guò)程中,輸入數(shù)據(jù)(Inputs)的參數(shù)H、W在運(yùn)算過(guò)程逐漸變小,輸入通道數(shù)(N)逐漸變大;輸出數(shù)據(jù)(Outputs)的參數(shù)H、W在運(yùn)算過(guò)程逐漸變小,通道數(shù)(M)逐漸變大。在整個(gè)卷積運(yùn)算過(guò)程中,激勵(lì)數(shù)據(jù)的大小迅速變大,而后逐漸變小。
針對(duì)AI硬件加速器片外數(shù)據(jù)訪問(wèn)功耗高、延遲大的問(wèn)題,目前的主流方案中,主要通過(guò)優(yōu)化AI硬件加速器的計(jì)算流程以及數(shù)據(jù)壓縮等方法降低片外數(shù)據(jù)訪問(wèn)。已有研究結(jié)果顯示激勵(lì)數(shù)據(jù)的訪問(wèn)高于權(quán)重?cái)?shù)據(jù)的帶寬訪問(wèn)。由于在卷積網(wǎng)絡(luò)硬件推理計(jì)算過(guò)程中激勵(lì)數(shù)據(jù)所需的緩存較大,目前還不能在AI硬件加速器有限的片內(nèi)SRAM上實(shí)現(xiàn)片內(nèi)計(jì)算,將激勵(lì)數(shù)據(jù)的片外數(shù)據(jù)訪問(wèn)降為零,極大的影響了系統(tǒng)的效率及功耗。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出了一種用于硬件加速器的激勵(lì)數(shù)據(jù)分塊處理方法及硬件加速器。本發(fā)明方法為一種用于硬件加速器的低帶寬、低存儲(chǔ)需求的AI硬件加速器設(shè)計(jì)方法,能夠以較低的片內(nèi)SRAM資源、大幅降低硬件加速器的片外數(shù)據(jù)訪問(wèn)。具體方案如下:
一種硬件加速器的激勵(lì)數(shù)據(jù)分塊處理方法,所述硬件加速器對(duì)卷積神經(jīng)網(wǎng)絡(luò)的激勵(lì)數(shù)據(jù)進(jìn)行分塊并行處理,將分塊并行處理后的激勵(lì)數(shù)據(jù)存儲(chǔ)于共享激勵(lì)數(shù)據(jù)存儲(chǔ)單元中,所述分塊并行處理包括如下步驟:1)AI硬件加速器在卷積網(wǎng)絡(luò)并行計(jì)算時(shí),將卷積層分割為淺層卷積層和深層卷積層;
2)AI硬件加速器將淺層卷積層分塊;
3)AI硬件加速器對(duì)分塊后的淺層卷積層采用右下數(shù)據(jù)進(jìn)行卷積計(jì)算;
4)AI硬件加速器將完成所有淺層卷積層計(jì)算后得到的結(jié)果合并后作為深層卷積層的輸入數(shù)據(jù),進(jìn)行深層卷積層計(jì)算。
進(jìn)一步,步驟1)淺層卷積層和深層卷積層的分割方法具體為:以最后一個(gè)不能將所有激勵(lì)數(shù)據(jù)全部保存于片內(nèi)存儲(chǔ)單元的卷積層L為邊界卷積層,劃分淺層卷積層和深層卷積層,將邊界卷積層及邊界卷積層之前的卷積層,即卷積層1至卷積層L,稱(chēng)為淺層卷積層;邊界卷積層之后的卷積層,即卷積層L+1及卷積層L+1之后的所有卷積層,稱(chēng)為深層卷積層。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)工程物理研究院電子工程研究所,未經(jīng)中國(guó)工程物理研究院電子工程研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111384780.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 實(shí)現(xiàn)啁啾光源的系統(tǒng)和方法
- 數(shù)字轉(zhuǎn)換器
- 緊固件預(yù)緊力檢測(cè)中的激勵(lì)傳遞裝置
- 一種安全網(wǎng)絡(luò)交易的激勵(lì)方法、網(wǎng)絡(luò)交易平臺(tái)以及激勵(lì)資金平臺(tái)
- 振弦式傳感器的激勵(lì)方法
- 一種單邊激勵(lì)電路及旋轉(zhuǎn)變壓器
- 一種顯示裝置及終端
- 激勵(lì)結(jié)果的預(yù)測(cè)方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 電容式位移傳感器的定尺和定子
- 一種旋轉(zhuǎn)磁場(chǎng)激勵(lì)的漏磁檢測(cè)傳感器
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





