[發明專利]神經網絡的訓練方法及裝置在審
| 申請號: | 201910407634.1 | 申請日: | 2019-05-16 |
| 公開(公告)號: | CN111950689A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 胡丁晟;何雷駿;徐斌 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 訓練 方法 裝置 | ||
本申請提供一種神經網絡的訓練方法及裝置,能夠有效減少神經網絡的訓練過程中的計算量,從而提高神經網絡的訓練效率,拓展神經網絡的訓練方法的適用范圍。該方法包括:利用由大位寬的第一訓練數據和第一權重矩陣量化后的小位寬的第二訓練數據和第二權重矩陣得到本處理層的大位寬的回傳誤差,并量化為本處理層對應的小位寬的回傳誤差,然后再利用小位寬的第二訓練數據和小位寬的回傳誤差,計算本處理層對應的大位寬的第二權重矩陣,從而完成神經網絡的一次訓練迭代。
技術領域
本申請涉及神經網絡領域,尤其涉及一種神經網絡的訓練方法及裝置。
背景技術
神經網絡的應用主要有訓練(train)和推斷(inference)兩種任務。其中,推斷是指將待識別數據輸入神經網絡得到識別結果,如識別待分類圖像的圖像類別。訓練是指利用包含真實標簽的數據(訓練樣本),不斷迭代優化神經網絡的權重矩陣(weight matrix),以提高推斷任務的準確性。在上述各個過程中,通常要涉及大量的矩陣乘法運算(主要包括乘加運算),計算量巨大,功耗和成本較高。例如,對于一個深度為16的計算機視覺組(visual geometry group 16,VGG16)神經網絡,使用一張224*224圖片完成一次訓練迭代的計算量高達290*3億次乘加運算。因此,如圖1所示,可以采用云端訓練、客戶端推斷的應用方案降低客戶端的計算量。具體地,由云計算設備,如計算能力強大的服務器、大型計算機等完成神經網絡的訓練任務,更新權重矩陣并下發給客戶端,然后由客戶端完成推斷任務。
容易理解,圖1所示的應用方案可能需要客戶上傳個人信息,存在隱私泄露風險。為此,提出了一種可降低計算量,以便在客戶端實施的量化推斷方案。具體地,如圖2所示,采用離線校準方式確定推斷數據的量化參數和量化后的權重矩陣,然后采用在線量化方式量化推斷數據,并根據量化后的推斷數據和量化后的權重矩陣進行推斷,輸出反量化后的推斷結果。其中,“量化”是指,根據神經網絡模型、初始量化參數和校準樣例,確定推斷數據和權重矩陣校準后的量化參數,如飽和閾值(saturated threshold)和校準后的量化位寬,然后將取值范圍較大的推斷數據和權重矩陣轉換為取值范圍較小的推斷數據和權重矩陣,從而進一步降低客戶端完成推斷任務的計算量。例如,可以采用線性飽和量化方式,將32位(bit)的浮點數量化為8位的定點數。
但是,在圖2所示的離線校準、在線量化的推斷方案中,量化參數是離線校準的,在線推斷過程中不能改變,而在訓練過程中,樣本數據的取值范圍是不斷變化的,這要求量化參數,如飽和閾值也能夠隨之調整。因此,圖2所示的離線校準、在線量化的推斷方案并不適用于的訓練過程。也就是說,迄今為止,尚不存在可用于客戶端等計算能力受限場景、既能執行推斷任務,又能執行訓練任務的可行技術方案。
發明內容
本申請提供一種神經網絡的訓練方法及裝置,能夠有效減少神經網絡的訓練任務的計算量,從而提高神經網絡的訓練效率,拓展神經網絡的訓練方法的適用范圍。
第一方面,提供一種神經網絡的訓練方法。其中,該神經網絡包括多個處理層,該多個處理層包括第一處理層以及一個或多個后級處理層。該神經網絡的訓練方法由第一處理層執行。該神經網絡的訓練方法包括:將經過預處理后的第一訓練數據量化為第二訓練數據,并將第一權重矩陣量化為第二權重矩陣。其中,第一訓練數據為第一處理層的前一層的輸出數據;第二訓練數據的位寬小于第一訓練數據的位寬,第二權重矩陣的位寬小于第一權重矩陣的位寬。然后,利用第二訓練數據和第二權重矩陣,得到第一中間結果。其中,第一中間結果依次經過一個或多個后級處理層處理后,最終得到第一回傳誤差。之后,接收第二回傳誤差,并將第二回傳誤差量化為第三回傳誤差。其中,第二回傳誤差為第一回傳誤差經過一個或多個后級處理層處理后得到的誤差,第三回傳誤差的位寬小于第二回傳誤差的位寬。最后,利用第二訓練數據和第三回傳誤差,計算第三權重矩陣。其中,第三權重矩陣作為下次訓練的正向過程中輸入的第一權重矩陣,且第三權重矩陣的位寬與第一權重矩陣的位寬相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910407634.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自發泡洗面奶及其制備方法
- 下一篇:電池組件及其電池覆膠方法





