[發明專利]基于臨界阻尼動量的深度神經網絡的訓練方法及系統有效
| 申請號: | 202011521458.3 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112488309B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 王好謙;蔡宇麟;王興政 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/084;G06F18/214;G06F17/16;G06F17/13 |
| 代理公司: | 深圳新創友知識產權代理有限公司 44223 | 代理人: | 方艷平 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 臨界阻尼 動量 深度 神經網絡 訓練 方法 系統 | ||
本發明公開了一種基于臨界阻尼動量的深度神經網絡的訓練方法及系統,該方法包括:S1:開始新一輪的迭代;S2:輸入一批新圖像,計算神經網絡的損失函數的海塞矩陣的跡,其中所述海塞矩陣是損失函數對神經網絡各參數的二階導數所構成的矩陣;S3:根據海塞矩陣的跡代入二階微分方程的臨界阻尼解,計算得到神經網絡權重參數的動量系數;S4:配合學習率衰減策略,更新神經網絡的參數;S5:判斷是否所有圖像批次都已計算,如果是,則執行步驟S6;如果否,則返回步驟S2;S6:判斷迭代輪次是否達到最大,如果是,則結束訓練,如果否,則返回步驟S1。本發明對包含動量的隨機梯度下降方法進行了改進,達到了較為理想的訓練效果。
技術領域
本發明涉及機器學習、數值方法技術領域,尤其涉及一種基于臨界阻尼動量的深度神經網絡的訓練方法及系統。
背景技術
深度神經網絡已經在計算機視覺、自然語言處理、計算機圖形學等領域展現出優異的性能。隨著深度神經網絡在網絡層數、拓撲結構等方面的日益復雜化,深度神經網絡的參數量也與日俱增,目前業界最新的神經網絡的參數數目已經達到107~108數量級。龐大的參數量雖然提升了神經網絡的適用范圍和效能,但也給網絡的訓練和優化帶來了難題。大型網絡的訓練經常需要幾天甚至更多的時間,同時也對研究者的圖形處理器性能提出了新的要求。這無疑給神經網絡的研究和應用帶來了一定程度的不便。
神經網絡訓練的優化經常需要借助于數值方法。近年來,在眾多優化算法中,隨機梯度下降(SGD)、自適應動量估計(Adam)等數值算法在圖像分類、語義分割等任務中表現較為出色,能夠使目標網絡的損失函數在一定的迭代次數后達到或接近其極小值,成為深度學習研究人員普遍采用的訓練策略。然而,SGD算法的迭代速度比較慢,而且其學習率是一個僅能憑經驗設定的超參數。當學習率設置得太小或太大時,神經網絡參數的迭代很容易出現步幅過緩或者劇烈振蕩的問題。Adam算法雖然在一定條件下能夠獲得比SGD更快的速度,但它適用的網絡類型比SGD少,而且在某些特殊情況下還可能不收斂。
以上背景技術內容的公開僅用于輔助理解本發明的構思及技術方案,其并不必然屬于本專利申請的現有技術,在沒有明確的證據表明上述內容在本專利申請的申請日已經公開的情況下,上述背景技術不應當用于評價本申請的新穎性和創造性。
發明內容
為解決上述技術問題,本發明提出一種基于臨界阻尼動量的深度神經網絡的訓練方法及系統,對包含動量的隨機梯度下降方法進行了改進,達到了較為理想的訓練效果。
為達到上述目的,本發明采用以下技術方案:
本發明公開了一種基于臨界阻尼動量的深度神經網絡的訓練方法,包括以下步驟:
S1:開始新一輪的迭代;
S2:輸入一批新圖像,計算神經網絡的損失函數的海塞矩陣的跡,其中所述海塞矩陣是損失函數對神經網絡各參數的二階導數所構成的矩陣;
S3:根據海塞矩陣的跡代入二階微分方程的臨界阻尼解,計算得到神經網絡權重參數的動量系數;
S4:配合學習率衰減策略,更新神經網絡的參數;
S5:判斷是否所有圖像批次都已計算,如果是,則執行步驟S6;如果否,則返回步驟S2;
S6:判斷迭代輪次是否達到最大,如果是,則結束訓練,如果否,則返回步驟S1。
優選地,步驟S2具體包括:
S21:輸入一批新圖像;
S22:前向傳播,計算神經網絡的損失函數L;
S23:反向傳播,計算神經網絡的損失函數的梯度向量g;
S24:生成拉特馬赫隨機向量v,以計算梯度向量積gTv;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011521458.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種移印設備
- 下一篇:目標檢測方法、系統、設備及存儲介質





