[發(fā)明專利]用于加速神經(jīng)網(wǎng)絡訓練的信息處理的方法、電子設備和計算機可讀介質(zhì)在審
| 申請?zhí)枺?/td> | 202010517306.X | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN112699991A | 公開(公告)日: | 2021-04-23 |
| 發(fā)明(設計)人: | 程治宇;李寶普;包英澤 | 申請(專利權(quán))人: | 百度(美國)有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204 | 代理人: | 馬曉亞;王艷春 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 加速 神經(jīng)網(wǎng)絡 訓練 信息處理 方法 電子設備 計算機 可讀 介質(zhì) | ||
本公開的實施方式公開了用于加速神經(jīng)網(wǎng)絡訓練的信息處理方法,該方法包括:獲取對應于深度學習任務的神經(jīng)網(wǎng)絡;以及基于訓練數(shù)據(jù)集對神經(jīng)網(wǎng)絡執(zhí)行迭代訓練的多次迭代,其中,訓練數(shù)據(jù)集包括對應于深度學習任務的任務數(shù)據(jù);以及迭代訓練包括:利用當前神經(jīng)網(wǎng)絡處理訓練數(shù)據(jù)集中的任務數(shù)據(jù),并基于當前迭代訓練中神經(jīng)網(wǎng)絡對任務數(shù)據(jù)的處理結(jié)果,確定當前迭代訓練的預測損失;基于預設學習速率函數(shù)、預設動量函數(shù)和當前迭代次數(shù),確定當前迭代訓練中的學習速率和動量;以及基于預設的梯度下降、當前迭代訓練中的學習速率、動量和預測損失,通過梯度下降更新當前神經(jīng)網(wǎng)絡的權(quán)重參數(shù)。該方法實現(xiàn)了高效,低成本的基于深度學習的神經(jīng)網(wǎng)絡訓練。
技術(shù)領域
本公開的實施方式涉及計算機技術(shù)領域,具體地涉及計算機數(shù)據(jù)處理技術(shù)領域,更具體地涉及用于加速神經(jīng)網(wǎng)絡訓練的信息處理的方法、電子設備和計算機可讀介質(zhì)。
背景技術(shù)
基于數(shù)據(jù)集訓練的深度卷積神經(jīng)網(wǎng)絡在諸如圖像分類、目標檢測和分割以及語言翻譯的領域都取得了良好的效果。然而,由于訓練集龐大,機器學習算法復雜,訓練時間長,所以訓練神經(jīng)網(wǎng)絡的計算成本通常很大。尤其是對于小型實體和個人深度學習研究者而言,獲得突破相當困難。因此,有必要設計一種有效的深度學習算法,以較少的資源使用來獲得高質(zhì)量的結(jié)果,從而減少訓練時間和成本。
發(fā)明內(nèi)容
本公開的實施方式提出了用于加速神經(jīng)網(wǎng)絡訓練的信息處理的方法、裝置、電子設備和計算機可讀介質(zhì)。
在第一方面,本公開的實施方式提供了一種用于加速神經(jīng)網(wǎng)絡訓練的信息處理的方法,包括:獲取對應于深度學習任務的神經(jīng)網(wǎng)絡;以及基于訓練數(shù)據(jù)集對神經(jīng)網(wǎng)絡執(zhí)行迭代訓練的多次迭代,其中,訓練數(shù)據(jù)集包括與深度學習任務相對應的任務數(shù)據(jù),迭代訓練包括:使用當前神經(jīng)網(wǎng)絡處理訓練數(shù)據(jù)集中的任務數(shù)據(jù),以及基于當前迭代訓練中神經(jīng)網(wǎng)絡對任務數(shù)據(jù)的處理結(jié)果,確定當前迭代訓練的預測損失;基于預設的學習速率函數(shù)、預設的動量函數(shù)和當前迭代次數(shù),確定當前迭代訓練中的學習速率和動量;以及基于預設的權(quán)重衰減、當前迭代訓練中的學習速率、動量和預測損失,通過梯度下降更新當前神經(jīng)網(wǎng)絡的權(quán)重參數(shù)。
在一些實施方式中,神經(jīng)網(wǎng)絡包括:至少一個組合層、至少一個殘差模塊、至少一個池化(pooling)層和至少一個完全連接層,其中,組合層通過連接至少一個卷積層、至少一個批量歸一化層和至少一個激活函數(shù)層而形成,以及殘差模塊包括至少兩個依次連接的組合層。
在一些實施方式中,預設的學習速率函數(shù)包括:函數(shù)值隨著迭代次數(shù)而變化的非線性函數(shù)。
在一些實施方式中,預設的學習速率函數(shù)是:
其中,lr_t表示第t次迭代訓練中的學習速率的值,lr_min表示學習速率的最小值,lr_max表示學習速率的最大值,T_cur表示在第t次迭代訓練之前的累積迭代數(shù),以及T_tot表示預設的迭代總數(shù)。
在一些實施方式中,預設的動量函數(shù)包括:函數(shù)值隨著迭代次數(shù)而變化的非線性函數(shù)。
在一些實施方式中,該方法還包括:獲取對應于深度學習任務的訓練數(shù)據(jù)集,以及對訓練數(shù)據(jù)集執(zhí)行數(shù)據(jù)增強處理。
在一些實施方式中,對訓練數(shù)據(jù)集執(zhí)行數(shù)據(jù)增強處理包括:對訓練數(shù)據(jù)集中的任務數(shù)據(jù)執(zhí)行數(shù)據(jù)剪切和/或數(shù)據(jù)混合,以生成新的任務數(shù)據(jù),以及將新的任務數(shù)據(jù)添加到訓練數(shù)據(jù)集中。
在一些實施方式中,方法還包括:使用通過迭代訓練的多次迭代而獲得的神經(jīng)網(wǎng)絡對深度學習任務的待處理數(shù)據(jù)進行處理,以及輸出待處理數(shù)據(jù)的處理結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度(美國)有限責任公司,未經(jīng)百度(美國)有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010517306.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)化方法及裝置





