[發明專利]一種基于窗口梯度更新的神經網絡訓練過程中間值存儲壓縮方法和裝置在審
| 申請號: | 202010317078.1 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111783976A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 楊侃;袁之航;孫廣宇;汪小林;羅英偉 | 申請(專利權)人: | 北京大學;鵬城實驗室 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 窗口 梯度 更新 神經網絡 訓練 過程 中間 存儲 壓縮 方法 裝置 | ||
1.一種基于窗口梯度更新的神經網絡訓練過程中間值存儲壓縮方法,其特征在于,該方法對神經網絡訓練時需要保存的激活值進行存儲優化,該方法包括以下步驟:
在神經網絡訓練的前向傳播過程中,從全部通道產生的全量的輸入激活值中選擇部分通道的輸入激活值保存在內存中;
在神經網絡訓練的反向傳播過程中,利用保存的部分通道的輸入激活值計算梯度,以更新神經網絡的權重參數;
通過窗口選擇所述部分通道,通過超參數網絡稠密度決定窗口大小,即窗口內包含的通道數占總通道數的比例,同時也表示保留的激活值占全量激活值的比例;其中,通道數是輸入激活值的深度維上的數值。
2.根據權利要求1所述的方法,其特征在于,通過窗口選擇所述部分通道的步驟包括:
確定窗口的起始位置;
根據網絡稠密度確定窗口大小。
3.根據權利要求2所述的方法,其特征在于,所述確定窗口的起始位置,是根據訓練時批數據的編號確定窗口的起始位置。
4.根據權利要求3所述的方法,其特征在于,窗口的起始位置等于批數據編號與總通道數取模后的結果。
5.根據權利要求2所述的方法,其特征在于,所述確定窗口的起始位置,是隨機確定一個位置作為窗口的起始位置,隨機數取值的范圍在0到總通道數之間。
6.根據權利要求2所述的方法,其特征在于,所述根據網絡稠密度確定窗口大小,包括:當窗口起始位置與窗口大小之和大于通道總數時,超出的部分從編號為0的通道開始,依次向后取值,直到窗口內實際通道數等于窗口大小為止。
7.一種采用權利要求1~6中任一項所述方法的基于窗口梯度更新的神經網絡訓練過程中間值存儲壓縮裝置,其特征在于,包括:
通道選擇模塊,用于通過窗口選擇部分通道;
輸入激活值保存模塊,用于在神經網絡訓練的前向傳播過程中,將通道選擇模塊選擇的部分通道的輸入激活值保存在內存中;
梯度計算模塊,用于在神經網絡訓練的反向傳播過程中,利用保存的部分通道的輸入激活值計算梯度,以更新神經網絡的權重參數。
8.一種電子裝置,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1~6中任一權利要求所述方法的指令。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲計算機程序,所述計算機程序被計算機執行時,實現權利要求1~6中任一權利要求所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學;鵬城實驗室,未經北京大學;鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010317078.1/1.html,轉載請聲明來源鉆瓜專利網。





