[發明專利]用于訓練DNN的縮放學習在審
| 申請號: | 201980084632.1 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN113196304A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | B·勞哈尼·達維什;E·S·鐘;D·洛;D·C·伯格 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/063 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 馬明月 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 訓練 dnn 縮放 學習 | ||
1.一種用于訓練利用啟用量化的系統實現的神經網絡的方法,所述方法包括:
利用所述啟用量化的系統:
獲取張量,所述張量包括以量化精度格式表示的所述神經網絡的一個或多個參數的值;
生成表示所述張量中存在的量化噪聲的至少一個噪聲信號度量;
基于所述至少一個噪聲信號度量生成已縮放學習率;以及
使用所述張量的所述值執行所述神經網絡的訓練期,包括使用所述已縮放學習率計算一個或多個梯度更新。
2.根據權利要求1所述的方法,其中:
所述張量是通過將第一張量的值從普通精度浮點格式轉換為所述量化精度格式而獲取的第二張量,以及
所述一個或多個參數是在所述神經網絡的訓練期的前向傳播階段使用的權重。
3.根據權利要求2所述的方法,其中:
所述一個或多個參數表示所述神經網絡的邊權重和激活權重,以及
生成所述至少一個噪聲信號度量包括:對于所述神經網絡的多個層中的每一層,生成針對所述層的所述激活權重的噪聲信號比并且生成針對所述層的所述邊權重的噪聲信號比。
4.根據權利要求3所述的方法,其中:
生成針對所述多個層中的每一層的所述激活權重的所述噪聲信號比包括:計算所述第二張量的針對所述層的所述激活權重與所述第一張量的針對所述層的所述激活權重之間的差,并且將所述差除以所述第一張量的針對所述層的所述激活權重的絕對值;以及
生成針對所述多個層中的每一層的所述邊權重的所述噪聲信號比包括:計算所述第二張量的針對所述層的所述邊權重與所述第一張量的針對所述層的所述邊權重之間的差,并且將所述差除以所述第一張量的針對所述層的所述邊權重的絕對值。
5.根據權利要求3所述的方法,還包括基于所述至少一個噪聲信號度量來生成縮放因子,其中:
所述神經網絡包括總共L層;以及
針對所述神經網絡的第l層的所述縮放因子是基于針對所述第l層的所述激活權重的所述噪聲信號比的平均值以及針對所述神經網絡的第l+1層到第L層的所述邊權重的所述噪聲信號比的平均值的總和來生成的。
6.根據權利要求5所述的方法,其中:
訓練所述神經網絡包括經由隨機梯度下降來訓練所述神經網絡;以及
所述神經網絡的所述第l層的所述已縮放學習率通過下式來計算:
其中εq表示所述已縮放學習率,ε表示所述神經網絡的預定學習率,以向量形式表示在隨機梯度下降批大小上的所述第l層的所述激活權重的所述噪聲信號比的平均值,以矩陣形式表示針對每個樣本的、所述神經網絡的第k層的所述邊權重的所述噪聲信號比的平均值。
7.根據權利要求6所述的方法,其中使用所述已縮放學習率計算所述一個或多個梯度更新包括:使用所述已縮放學習率來計算針對所述第l層的一個或多個參數的梯度更新。
8.根據權利要求7所述的方法,其中使用所述已縮放學習率計算所述一個或多個梯度更新還包括:使用針對所述第l層生成的相同的已縮放學習率,計算針對所述神經網絡的一個或多個其他層的一個或多個參數的梯度更新。
9.根據權利要求2所述的方法,還包括基于所述至少一個噪聲信號度量生成縮放因子,其中:
所述普通精度浮點格式表示具有第一位寬的所述值;
所述量化精度格式表示具有第二位寬的所述值,所述第二位寬低于所述第一位寬;以及
所述方法還包括:
將所述縮放因子存儲在查找表中針對所述第二位寬的條目中;
通過訪問所述查找表中針對所述第二位寬的所述條目以獲取針對所述第二位寬的所述縮放因子,計算針對所述神經網絡的一個或多個其他參數的梯度更新,所述一個或多個其他參數以所述第二位寬表示;以及
使用針對所述第二位寬的所述縮放因子,計算針對所述一個或多個其他參數的所述梯度更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980084632.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于拉開和扭轉的裝置和方法
- 下一篇:用于改善沉積的毛發調理組合物





