[發(fā)明專利]一種利用稀疏性的深度學(xué)習(xí)訓(xùn)練硬件加速器有效
| 申請(qǐng)?zhí)枺?/td> | 202010128655.2 | 申請(qǐng)日: | 2020-02-28 |
| 公開(公告)號(hào): | CN111368988B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 楊建磊;戴鵬程;趙巍勝 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06N3/063 | 分類號(hào): | G06N3/063;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京航智知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 利用 稀疏 深度 學(xué)習(xí) 訓(xùn)練 硬件 加速器 | ||
本發(fā)明公開了一種利用稀疏性的深度學(xué)習(xí)算法訓(xùn)練加速器及加速訓(xùn)練方法,將模型訓(xùn)練的計(jì)算過程分解為多個(gè)一維離散稀疏卷積操作及其結(jié)果的求和。本發(fā)明的加速器可以同時(shí)支持激活值稀疏性和梯度稀疏性,同時(shí)支持僅計(jì)算結(jié)果向量的指定分量;顯著降低了訓(xùn)練過程的計(jì)算與訪存開銷;另外在該加速器的基礎(chǔ)上引入梯度計(jì)算結(jié)果的剪枝,提高了梯度數(shù)據(jù)稀疏性,從而進(jìn)一步提升計(jì)算性能和效率。
技術(shù)領(lǐng)域
本發(fā)明屬于深度學(xué)習(xí)及硬件加速器技術(shù)領(lǐng)域,尤其涉及一種針對(duì)深度學(xué)習(xí)模型訓(xùn)練過程的加速器及加速訓(xùn)練方法。
背景技術(shù)
深度學(xué)習(xí)是人工智能領(lǐng)域的一類常見模型和算法,其主要通過反向傳播算法訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,從而自動(dòng)的從給定的大量數(shù)據(jù)上抽取相應(yīng)的特征并完成分類等任務(wù)。深度學(xué)習(xí)算法被廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、自動(dòng)駕駛等多個(gè)領(lǐng)域。
然而,隨著深度學(xué)習(xí)模型深度的不斷加深和數(shù)據(jù)規(guī)模的不斷加大,模型所需的計(jì)算量、存儲(chǔ)量和功耗也越來越大。深度學(xué)習(xí)模型的使用包括兩個(gè)步驟:訓(xùn)練,推斷。其中,由于模型的訓(xùn)練比推理花費(fèi)更多的計(jì)算量和空間,因此訓(xùn)練過程面臨著更為嚴(yán)重的速度和功耗瓶頸。現(xiàn)有的深度學(xué)習(xí)模型訓(xùn)練通常是在大規(guī)模集群上,利用圖形處理器進(jìn)行計(jì)算,其實(shí)際的能量效率是較低的。
利用數(shù)據(jù)稀疏性加速模型運(yùn)算是一種常用的加速方法。在深度學(xué)習(xí)模型的訓(xùn)練過程中,中間數(shù)據(jù)(激活值及梯度值)存在著一定的稀疏性,因此也可以被利用從而加速模型訓(xùn)練。但是訓(xùn)練過程中的稀疏性是不規(guī)則的,因此難以被現(xiàn)有的硬件利用。
發(fā)明內(nèi)容
為了加速深度學(xué)習(xí)的訓(xùn)練過程,本發(fā)明提出一種硬件加速器結(jié)構(gòu)及加速訓(xùn)練方法,通過利用訓(xùn)練過程中的中間數(shù)據(jù)稀疏性的方法來加速模型訓(xùn)練、降低運(yùn)算功耗。本發(fā)明的具體技術(shù)方案如下:
一種利用稀疏性的深度學(xué)習(xí)訓(xùn)練硬件加速器,其特征在于,包括全局緩存,控制單元和運(yùn)算單元陣列,其中,
所述全局緩存通過數(shù)據(jù)總線與片外存儲(chǔ)進(jìn)行數(shù)據(jù)交換,用于存儲(chǔ)計(jì)算過程中的數(shù)據(jù);
所述控制單元與片外的主機(jī)CPU相連,根據(jù)主機(jī)指令控制片上的數(shù)據(jù)流動(dòng)并調(diào)度運(yùn)算單元陣列;
所述運(yùn)算單元陣列由多個(gè)運(yùn)算單元組構(gòu)成,每個(gè)運(yùn)算單元組包含至少一個(gè)運(yùn)算單元和一個(gè)后處理單元,所述運(yùn)算單元用于執(zhí)行訓(xùn)練過程中的一維稀疏離散卷積操作及向量點(diǎn)積操作,所述后處理單元用于執(zhí)行訓(xùn)練過程中的逐點(diǎn)操作、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)統(tǒng)計(jì)以及數(shù)據(jù)剪枝操作;
所述運(yùn)算單元陣列從所述全局緩存中讀取數(shù)據(jù),通過數(shù)據(jù)廣播將數(shù)據(jù)分發(fā)至運(yùn)算單元,每個(gè)運(yùn)算單元執(zhí)行一個(gè)一維行卷積操作,每個(gè)運(yùn)算單元組的至少一個(gè)運(yùn)算單元的操作結(jié)果相加并輸出到后處理單元進(jìn)行非線性操作和數(shù)據(jù)格式變換后,輸出結(jié)果存回所述全局緩存中,實(shí)現(xiàn)數(shù)據(jù)的復(fù)用。
基于前述的一種利用稀疏性的深度學(xué)習(xí)訓(xùn)練硬件加速器的加速訓(xùn)練方法,其特征在于,針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練過程,將其計(jì)算過程分解為多個(gè)一維離散稀疏卷積操作及其結(jié)果的求和,具體步驟如下:
S1:將前向傳播過程中的卷積運(yùn)算分解為多個(gè)稀疏行卷積及其結(jié)果的求和,所述稀疏行卷積運(yùn)算是在一個(gè)稀疏長向量和一個(gè)稠密短向量間進(jìn)行的一維離散卷積操作;前向傳播過程中網(wǎng)絡(luò)模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)為激活值數(shù)據(jù);
S2:反向傳播過程中,網(wǎng)絡(luò)模型輸出誤差對(duì)激活值數(shù)據(jù)的導(dǎo)數(shù)為激活值梯度數(shù)據(jù);將反向傳播過程中生成激活值梯度數(shù)據(jù)的卷積運(yùn)算,或前向傳播過程中卷積步長大于1的卷積運(yùn)算,分解為多個(gè)掩碼化稀疏行卷積及其結(jié)果的求和,所述掩碼化稀疏行卷積運(yùn)算是在一個(gè)稀疏長向量和一個(gè)稠密短向量間進(jìn)行的一維離散卷積操作,并根據(jù)輸入的掩碼向量預(yù)測(cè)結(jié)果向量中值為零的分量并直接跳過這些分量的計(jì)算過程;所述掩碼向量用于指示結(jié)果向量中應(yīng)被跳過的分量,所述掩碼向量的來源為步驟S1的輸出或根據(jù)預(yù)先指定的稀疏模式設(shè)計(jì)好的掩碼向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010128655.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





