[發明專利]一種利用稀疏性的深度學習訓練硬件加速器有效
| 申請號: | 202010128655.2 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111368988B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 楊建磊;戴鵬程;趙巍勝 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京航智知識產權代理事務所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 稀疏 深度 學習 訓練 硬件 加速器 | ||
1.一種利用稀疏性的深度學習訓練硬件加速器的加速訓練方法,所述深度學習訓練硬件加速器包括全局緩存,控制單元和運算單元陣列,其中,
所述全局緩存通過數據總線與片外存儲進行數據交換,用于存儲計算過程中的數據;
所述控制單元與片外的主機CPU相連,根據主機指令控制片上的數據流動并調度運算單元陣列;
所述運算單元陣列由多個運算單元組構成,每個運算單元組包含至少一個運算單元和一個后處理單元,所述運算單元用于執行訓練過程中的一維稀疏離散卷積操作及向量點積操作,所述后處理單元用于執行訓練過程中的逐點操作、數據格式轉換、數據統計以及數據剪枝操作;
所述運算單元陣列從所述全局緩存中讀取數據,通過數據廣播將數據分發至運算單元,每個運算單元執行一個一維行卷積操作,每個運算單元組的至少一個運算單元的操作結果相加并輸出到后處理單元進行非線性操作和數據格式變換后,輸出結果存回所述全局緩存中,實現數據的復用;
其特征在于,針對深度學習網絡模型的訓練過程,將其計算過程分解為多個一維離散稀疏卷積操作及其結果的求和,具體步驟如下:
S1:將前向傳播過程中的卷積運算分解為多個稀疏行卷積及其結果的求和,所述稀疏行卷積運算是在一個稀疏長向量和一個稠密短向量間進行的一維離散卷積操作;前向傳播過程中網絡模型的輸入數據和輸出數據為激活值數據;
S2:反向傳播過程中,網絡模型輸出誤差對激活值數據的導數為激活值梯度數據;將反向傳播過程中生成激活值梯度數據的卷積運算,或前向傳播過程中卷積步長大于1的卷積運算,分解為多個掩碼化稀疏行卷積及其結果的求和,所述掩碼化稀疏行卷積運算是在一個稀疏長向量和一個稠密短向量間進行的一維離散卷積操作,并根據輸入的掩碼向量預測結果向量中值為零的分量并直接跳過這些分量的計算過程;所述掩碼向量用于指示結果向量中應被跳過的分量,所述掩碼向量的來源為步驟S1的輸出或根據預先指定的稀疏模式設計好的掩碼向量;
S3:反向傳播過程中,網絡模型輸出誤差對權重值數據的導數為權重值梯度數據;將反向傳播過程中的權重值梯度數據計算的卷積運算分解為多個固定輸出的稀疏行卷積及其結果的求和,所述固定輸出的稀疏行卷積運算是在兩個稀疏長向量間進行的一維離散卷積操作,并按要求只進行結果向量中部分分量數據的計算。
2.根據權利要求1所述的加速訓練方法,其特征在于,針對全連接神經網絡和遞歸神經網絡,所述訓練方法包括以下步驟:
Step1:將前向傳播過程中的矩陣乘法運算,分解為多個向量點積及其結果的求和;
Step2:將反向傳播過程中的激活值梯度數據生成的矩陣乘法運算,分解為多個向量點積及其結果的求和;
Step3:將反向傳播過程中的權重值梯度數據計算的運算,分解為多個一維向量的數乘運算。
3.根據權利要求1所述的加速訓練方法,其特征在于,所述訓練方法還包括完成步驟S2后,在所述后處理單元中對激活值梯度值數據進行人工剪枝。
4.根據權利要求1所述的加速訓練方法,其特征在于,步驟S1還包括對激活值數據通過壓縮稀疏行格式進行壓縮編碼后,參與計算和存儲。
5.根據權利要求1所述的加速訓練方法,其特征在于,步驟S2還包括對激活值梯度數據通過壓縮稀疏行格式進行壓縮編碼后,參與計算和存儲。
6.根據權利要求1所述的加速訓練方法,其特征在于,對于包含池化層的深度學習網絡模型,所述加速訓練方法還包括將池化層的輸出激活值數據編碼為池化格式,并以所述池化格式進行存儲和傳輸,所述池化格式包含數據向量和指針向量,所述數據向量以行優先的順序記錄每個輸出數據的值,所述指針向量中的每個分量記錄所述數據向量中對應位置的值在池化操作窗口中的相對位置;所述池化操作窗口是指池化操作過程中每個輸出數據所對應的輸入數據窗口。
7.根據權利要求1-6任一項所述的加速訓練方法,其特征在于,所述深度學習網絡模型包括卷積層、非線性層、GRU層、LSTM層、全連接層、池化層、BN層中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010128655.2/1.html,轉載請聲明來源鉆瓜專利網。





