[發明專利]用于訓練DNN的縮放學習在審
| 申請號: | 201980084632.1 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN113196304A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | B·勞哈尼·達維什;E·S·鐘;D·洛;D·C·伯格 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/063 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 馬明月 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 訓練 dnn 縮放 學習 | ||
公開了用于調節神經網絡的超參數以補償噪聲(諸如經由神經網絡的一個或多個參數的量化而引入的噪聲)的方法和裝置。在一些示例中,調節可以包括基于表示神經網絡中存在的噪聲的至少一個度量來縮放超參數。至少一個度量可以包括針對神經網絡的權重(諸如邊權重和激活權重)的噪聲信號比。在量化神經網絡中,用于在反向傳播期間計算針對層的梯度更新的學習率超參數可以基于至少一個度量被縮放。在一些示例中,當計算針對其他層的梯度更新時,可以使用相同的已縮放學習率。
背景技術
機器學習(ML)和人工智能(AI)技術可以用于解決很多復雜的計算問題,諸如識別圖像和語音、分析和分類信息,以及執行各種分類任務。機器學習是計算機科學領域,其使用統計技術使計算機系統能夠從一組訓練數據中提取更高級別的特征。具體地,可以通過訓練諸如人工神經網絡或深度神經網絡等模型來提取特征。傳統上,深度神經網絡已經使用單精度浮點格式(例如,float32)的值被訓練和部署。最近的研究表明,較低精度的量化格式(諸如float16或定點)可以用于推理,具有可接受的準確度損失。然而,隨著精度的降低,誤差(也稱為“噪聲”)會增加。
發明內容
公開了用于在利用啟用量化的系統實現的神經網絡的訓練期間補償量化噪聲的方法和裝置。在一些示例中,一種用于訓練神經網絡的方法包括獲取張量,該張量包括以量化精度格式表示的神經網絡的一個或多個參數的值,并且生成表示張量中存在的量化噪聲的至少一個度量(例如,至少一個噪聲信號度量)。例如,參數可以包括神經網絡的邊權重和激活權重。然后可以使用至少一個度量來縮放學習率,以在神經網絡的一個或多個后續訓練期的反向傳播階段使用。
如本文中使用的,“噪聲信號”(noise-signal)度量是指被視為“噪聲”的信號部分(例如,表示參數值的信號)與信號本身之間的定量關系。例如,參數(例如,神經網絡的激活權重或邊權重)的值的量化可能會引入噪聲,因為該值以較低精度量化格式表示。在這樣的示例中,噪聲信號度量可以包括構成噪聲的量化值的部分與量化之前的參數的值的比率。
受益于本公開的相關領域的普通技術人員將容易理解,在噪聲信號度量是比率的示例中,它不限于標量噪聲與信號值的比率。相反,它還可以包括分子和分母不是標量值的比率。例如,噪聲信號比度量可以表示包含多個噪聲值的噪聲向量與包含多個信號值(例如,神經網絡的單層的參數的值)的信號向量的比率,其中噪聲向量中的每個噪聲值表示信號向量中被視為“噪聲”的對應信號部分,并且信號向量中的每個對應信號值表示信號本身。作為另一示例,噪聲信號比度量可以表示包含多個噪聲值的噪聲矩陣與包含多個信號值(例如,神經網絡的多個層的參數的值)的信號矩陣的比率,其中噪聲矩陣中的每個噪聲值表示信號矩陣中被視為“噪聲”的對應信號部分,并且信號矩陣中的每個對應信號值表示信號本身。因此,如果將噪聲信號比設想為一個分數,則分子和分母可以是標量值、向量或矩陣。替代地,在不脫離本公開的范圍的情況下,噪聲信號比的分子和分母可以采用另一種形式。在另一實現中,噪聲信號度量具有除比率之外的形式。
在量化神經網絡的后續訓練期期間,基于至少一個噪聲信號度量而計算的縮放因子可以用于縮放用于計算針對神經網絡的參數的梯度更新的學習率。受益于本公開的本領域普通技術人員將容易明白,通過基于量化噪聲信號比調節神經網絡的超參數,諸如學習率,可以減輕在梯度更新的計算期間出現的、由于聚合量化噪聲而引起的誤差。這種噪聲補償有利地允許在訓練神經網絡時使用較低精度的計算,同時仍實現與較高精度的計算相似的準確度。一定數量的噪聲可以有益于訓練神經網絡,因為它可以減少神經網絡過擬合數據的風險。實際上,對于每個神經網絡,在動力學中都可能存在最佳隨機波動量。然而,當在具有較低精度量化格式的值的神經網絡中執行反向傳播時,來自不同層的量化噪聲會聚合。由于這種噪聲的聚合,在反向傳播期間的梯度更新的計算中的誤差可能會達到無法接受的水平。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980084632.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于拉開和扭轉的裝置和方法
- 下一篇:用于改善沉積的毛發調理組合物





