[發明專利]用于加速神經網絡訓練的信息處理的方法、電子設備和計算機可讀介質在審
| 申請號: | 202010517306.X | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN112699991A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 程治宇;李寶普;包英澤 | 申請(專利權)人: | 百度(美國)有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 馬曉亞;王艷春 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 加速 神經網絡 訓練 信息處理 方法 電子設備 計算機 可讀 介質 | ||
1.一種用于加速神經網絡訓練的信息處理的方法,包括:
獲取與深度學習任務相對應的神經網絡;以及
基于訓練數據集對所述神經網絡執行迭代訓練的多次迭代,其中,所述訓練數據集包括與所述深度學習任務相對應的任務數據;以及其中
所述迭代訓練包括:
使用當前神經網絡處理所述訓練數據集中的任務數據,并基于當前迭代訓練中所述神經網絡對所述任務數據的處理結果,確定所述當前迭代訓練的預測損失;
基于預設的學習速率函數、預設的動量函數和當前迭代次數,確定所述當前迭代訓練中的學習速率和動量;以及
基于預設的梯度下降、所述當前迭代訓練中的學習速率、動量和預測損失,通過梯度下降更新所述當前神經網絡的權重參數。
2.根據權利要求1所述的方法,其中,所述神經網絡包括:
至少一個組合層、至少一個殘差模塊、至少一個池化層和至少一個完全連接層,其中,所述組合層通過連接至少一個卷積層、至少一個批量歸一化層和至少一個激活函數層而形成,并且所述殘差模塊包括至少兩個連續連接的組合層。
3.根據權利要求1所述的方法,其中,所述預設的學習速率函數包括:函數值隨著迭代次數而變化的非線性函數。
4.根據權利要求3所述的方法,其中,所述預設的學習速率函數為:
其中,lr_t表示第t次迭代訓練中的學習速率的值,lr_min表示學習速率的最小值,lr_max表示學習速率的最大值,T_cur表示在第t次迭代訓練之前的累積迭代次數,以及T_tot表示預設的迭代總數。
5.根據權利要求1所述的方法,其中,所述預設的動量函數包括:函數值隨著迭代次數而變化的非線性函數。
6.根據權利要求1所述的方法,其中,所述方法還包括:
獲取與所述深度學習任務相對應的所述訓練數據集,并對所述訓練數據集執行數據增強處理。
7.根據權利要求6所述的方法,其中,對所述訓練數據集執行數據增強處理包括:
對所述訓練數據集中的任務數據進行數據剪切和/或數據混合,以生成新的任務數據,并將所述新的任務數據添加到所述訓練數據集中。
8.根據權利要求1所述的方法,其中,所述方法還包括:
使用通過迭代訓練的多次迭代獲得的所述神經網絡對所述深度學習任務的待處理數據進行處理,并輸出所述待處理數據的處理結果。
9.一種電子設備,包括:
一個或多個處理器;以及
存儲單元,配置為存儲一個或多個程序;
所述一個或多個程序在由所述一個或多個處理器執行時,致使所述一個或多個處理器:
獲取與深度學習任務相對應的神經網絡;以及
基于訓練數據集對所述神經網絡執行迭代訓練的多次迭代,其中,所述訓練數據集包括與所述深度學習任務相對應的任務數據;以及其中
所述迭代訓練包括:
使用當前神經網絡處理所述訓練數據集中的任務數據,并基于當前迭代訓練中所述神經網絡對所述任務數據的處理結果,確定所述當前迭代訓練的預測損失;
基于預設的學習速率函數、預設的動量函數和當前迭代次數,確定所述當前迭代訓練中的學習速率和動量;以及
基于預設的梯度下降、所述當前迭代訓練中的學習速率、動量和預測損失,通過梯度下降更新所述當前神經網絡的權重參數。
10.一種存儲有計算機程序的計算機可讀介質,其中,所述計算機程序在由一個或多個處理器執行時致使所述一個或多個處理器:
獲取與深度學習任務相對應的神經網絡;以及
基于訓練數據集對所述神經網絡執行迭代訓練的多次迭代,其中,所述訓練數據集包括與所述深度學習任務相對應的任務數據;以及其中
所述迭代訓練包括:
使用當前神經網絡處理所述訓練數據集中的任務數據,并基于當前迭代訓練中所述神經網絡對所述任務數據的處理結果,確定所述當前迭代訓練的預測損失;
基于預設的學習速率函數、預設的動量函數和當前迭代次數,確定所述當前迭代訓練中的學習速率和動量;以及
基于預設的梯度下降、所述當前迭代訓練中的學習速率、動量和預測損失,通過梯度下降更新所述當前神經網絡的權重參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度(美國)有限責任公司,未經百度(美國)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010517306.X/1.html,轉載請聲明來源鉆瓜專利網。





