[發明專利]一種面向神經網絡異步訓練的學習率調整方法有效
| 申請號: | 202110254554.4 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN112861991B | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 李尹健;盧宇彤 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F17/16;G06N3/0464;G06N3/08 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 神經網絡 異步 訓練 學習 調整 方法 | ||
本發明公開了一種面向神經網絡異步訓練的學習率調整方法,所述方法包括以下步驟:初始化參數;將神經網絡的參數發送給所有空閑的計算節點;直到已經接收了c個計算結果;對于c個接收的計算梯度,分別調整它們的學習率;使用步驟S4中得到的學習率和接收的c個梯度,對網絡進行一步梯度下降的更新;判斷網絡精度是否滿足要求。若已達到要求,則完成訓練,將回應2發送給所有計算節點,退出;否則回到步驟B,并將回應1發送給所有本輪計算完成的節點,進行下一輪循環的訓練。本發明的有益效果在于,延遲梯度的學習率不再會隨著數目的增多而線性上升,同時在計算時考慮到了當前接收的其它梯度的延遲情況和樣本批量大小,將整體的學習率調整得更加平衡、更加科學。
技術領域
本發明屬于人工智能-神經網絡優化技術研究技術領域,特別涉及一種面向神經網絡異步訓練的學習率調整方法。
技術背景
隨著當前的數據集日趨膨脹,訓練的模型(如深度神經網絡)的參數也越來越多,隨機梯度下降優化(SGD)成為了當前有監督學習算法的核心。
這種訓練方法是由若干次的循環優化構成的。在每一輪循環中,在訓練集中隨機抽取若干個樣本,讓它們通過神經網絡,根據神經網絡對它們的計算結果和實際結果的差距計算損失(LOSS);然后根據這個損失對網絡進行反向傳播,計算神經網絡中每個參數對于損失的梯度,最終根據該梯度對參數進行優化。
在若干次這樣的循環優化后,神經網絡的損失會越來越小,每次的計算結果與真實結果越來越接近,即完成了訓練。
本發明注重的是在多設備、多異構節點的分布式環境下對神經網絡的訓練過程進行加速。目前廣泛采用的分布式優化方法是參數服務器法。具體而言,是將神經網絡的參數存放在一個服務器中。在每輪計算循環中數服務器將網絡參數發送給所有的計算節點;然后每個計算節點隨機抽取樣本,計算損失和梯度,并將計算的梯度發回給參數服務器;參數服務器在接收了若干計算節點的結果后進行綜合,計算得到一個平均的梯度,并根據這個梯度對網絡進行優化,完成一輪循環。
根據服務器更新參數的頻率,參數服務器法可以分為異步和同步兩種。同步訓練法中,參數服務器需要接收完所有的計算節點的結果后才進行參數更新,將最新的網絡參數發回給所有計算節點,完成該輪訓練。而在異步訓練法中,參數服務器每輪訓練僅需要等待一部分節點計算完成,就可以進行參數更新、發回最新參數。
對于異步訓練法,由于節點間不再需要相互等待,因此每個計算節點在計算的過程中,服務器的參數往往已經被其它計算節點更新了,導致節點的計算結果與當前服務器的全局網絡應當得到的結果不同。這期間服務器被更新的次數被稱為梯度延時,同時參與計算的節點越多,平均梯度延時就會越大,誤差也會越大。梯度延時的存在,不僅會降低模型最終的精確率,更會降低模型的收斂速度,在嚴重的時候甚至會直接導致模型無法收斂。
現有的方法,對延遲梯度的處理的方法過于簡單,僅僅除以它的延遲就作為最終的學習率進行更新了。這樣做存在以下幾個問題:
1、數值設定沒有確切的理論依據,而僅僅是啟發式地進行設定。并且其中的超參數也難以界定,只能通過實驗來選擇。
2、這類方法忽略了其它影響因素,如minibatch大小、當前minibatch中其余梯度的延遲帶來的影響。
3、這類方法僅僅線性地將舊梯度的效果等同于新梯度的若干分之一,實際上隱含著若干個舊梯度的更新效果就可以等同于一個新梯度的假設。該假設同樣也是沒有得到證明,而只是啟發式地確立的。
因為這些問題的存在,導致了這些簡單的學習率調整方式僅僅只能在工人數量較少,或者每個工人每輪計算的minibatch的大小極小時才能有好的效果。一旦這兩個條件無法全部滿足,訓練產生的網絡的準確率就會大幅降低。在實驗上對該現象做了詳細闡述,并指出(工人數量N*每個工人的batchsize)的值越大,異步更新的效果也就越差。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110254554.4/2.html,轉載請聲明來源鉆瓜專利網。





