[發(fā)明專利]二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程有效
| 申請?zhí)枺?/td> | 201710032864.5 | 申請日: | 2017-01-12 |
| 公開(公告)號: | CN106875011B | 公開(公告)日: | 2020-04-17 |
| 發(fā)明(設(shè)計)人: | 王中風(fēng);王逸致;林軍 | 申請(專利權(quán))人: | 南京風(fēng)興科技有限公司 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 210032 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 權(quán)重 卷積 神經(jīng)網(wǎng)絡(luò) 加速器 硬件 架構(gòu) 及其 計算 流程 | ||
本發(fā)明公開了一種用于二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程。其中,硬件架構(gòu)包含以下部分:三個雙端片上靜態(tài)隨機(jī)存儲器,分別用于緩存輸入神經(jīng)元以及一個卷積層的二值權(quán)重;四個卷積處理單元,能夠根據(jù)計算流程控制其中的運(yùn)算部件完成主要的卷積計算操作;一個特征映射累積單元以及一個卷積累加陣列,用于進(jìn)一步處理卷積處理單元的運(yùn)算結(jié)果,以得到最終正確的輸出神經(jīng)元的值。整個設(shè)計通過動態(tài)隨機(jī)存儲器接口與片外存儲器交換數(shù)據(jù)。除了硬件架構(gòu)以外,本發(fā)明還包含了一個對該硬件架構(gòu)優(yōu)化了的,以四行輸入特征映射為一次完整計算單位的詳細(xì)計算流程。本發(fā)明最大化的復(fù)用了輸入數(shù)據(jù),盡可能的消除了片外存儲器的訪問,能夠有效降低進(jìn)行深度二值卷積神經(jīng)網(wǎng)絡(luò)計算的功耗,且能夠支持深層網(wǎng)絡(luò),是一種可用于視覺應(yīng)用的嵌入式系統(tǒng)的合理方案。
技術(shù)領(lǐng)域
本發(fā)明設(shè)計計算機(jī)及電子信息技術(shù)領(lǐng)域,特別涉及一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)專用加速器的硬件架構(gòu)及其計算流程。
背景技術(shù)
深度卷積神經(jīng)網(wǎng)絡(luò)模型在諸多領(lǐng)域譬如圖像分類、動作檢測、語音識別以及其他大數(shù)據(jù)分析的任務(wù)中取得了極大的突破和成功。一方面,隨著卷積神經(jīng)網(wǎng)絡(luò)的效果變得越來越好,其本身拓?fù)浣Y(jié)構(gòu)也在不斷加深,參數(shù)數(shù)量也達(dá)到了10的6次方及以上級別,這帶來了計算復(fù)雜度的極大提升,所需的計算能力爆炸性增長。另一方面,嵌入式系統(tǒng)僅能夠提供有限的資源,其功耗也受限在一定范圍內(nèi),現(xiàn)有常用的使用大規(guī)模GPU的解決方案雖然有較高的吞吐率,但其功耗過高(約250W),難以應(yīng)用于嵌入式系統(tǒng)中。
二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)是一種簡化的卷積神經(jīng)網(wǎng)絡(luò)模型,其最早由加拿大蒙特利爾大學(xué)的Matthieu Courbariaux等人提出,后又經(jīng)過Itay hubara、Mohammad Rasteg等人的改進(jìn)。此模型通過特別的訓(xùn)練方式將卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重訓(xùn)練為二值的+1和-1,這使得模型的計算復(fù)雜度大大降低,模型的大小也能夠被壓縮達(dá)到32倍。
然而盡管如此,對于深度卷積神經(jīng)網(wǎng)絡(luò),即使參數(shù)二值化能夠使得復(fù)雜度有所降低,其仍然需要大量的計算,直接應(yīng)用于嵌入式系統(tǒng)中很難滿足實時性的要求。因此設(shè)計一款二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器是進(jìn)一步推動深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于嵌入式系統(tǒng)的理想解決方案之一。目前尚未出現(xiàn)理想的二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器。Andri R,Cavigelli L,Rossi D,et al.YodaNN:An Ultra-Low Power Convolutional Neural NetworkAccelerator Based on Binary Weights[J].2016:236-241.中提出了一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器,其能耗比遠(yuǎn)超現(xiàn)有的高精度權(quán)重神經(jīng)網(wǎng)絡(luò)的加速器。然而此架構(gòu)由于大量的訪問片外的主存儲器,在400MHz的頻率下IO的功耗需要大約328毫瓦,甚至比片上計算的功耗還高。因此,針對降低訪問片外主存(動態(tài)隨機(jī)存儲器)的IO功耗的計算流程和對應(yīng)架構(gòu)亟待提出。
發(fā)明內(nèi)容
本發(fā)明旨在解決卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于功耗受限的嵌入式系統(tǒng)的技術(shù)問題,或至少提出一種有用的商業(yè)選擇。為此,本發(fā)明的目的在于提出一種針對二值卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化的硬件加速器架構(gòu)和計算流程,最大化數(shù)據(jù)復(fù)用的同時,盡可能的降低訪問片外隨機(jī)存儲器的帶寬和功耗,將大量的數(shù)據(jù)訪問限制在片上訪問功耗最低的寄存器上。同時本發(fā)明能夠適應(yīng)深度網(wǎng)絡(luò)的需求,能夠適應(yīng)具有最好分類精度之一的VGG-16Net、VGG-19Net等網(wǎng)絡(luò)拓?fù)涞亩祷姹尽A硗猓捎诙稻矸e神經(jīng)網(wǎng)絡(luò)的全連接層主要為IO密集型需求,卷積計算是計算密集型需求,因此本發(fā)明著眼于二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)的卷積層的加速。
本發(fā)明主要包含兩部分,一部分是整體的硬件架構(gòu),另一部分是優(yōu)化的計算流程。
硬件架構(gòu)包含以下部分:
1.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機(jī)存儲器,即輸入神經(jīng)元緩存器IMEM1,IMEM2,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)的設(shè)置能應(yīng)用于卷積核大小為3×3的二值卷積神經(jīng)網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京風(fēng)興科技有限公司,未經(jīng)南京風(fēng)興科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710032864.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重數(shù)據(jù)存儲方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲介質(zhì)
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機(jī)存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





