[發明專利]基于通信操作稀疏化的分布式深度學習多步延遲更新方法有效
| 申請號: | 202011312697.8 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112463189B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 董德尊;徐葉茂;徐煒遐;廖湘科 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F8/65 | 分類號: | G06F8/65;G06N3/04;G06N3/063;G06N3/08 |
| 代理公司: | 北京豐浩知識產權代理事務所(普通合伙) 11781 | 代理人: | 董超 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 通信 操作 稀疏 分布式 深度 學習 延遲 更新 方法 | ||
本發明公開了一種基于通信操作稀疏化的分布式深度學習多步延遲更新方法,其具體步驟包括:熱身訓練,在進行多步延遲迭代訓練前利用同步隨機梯度下降方法對深度學習模型進行一定迭代次數的訓練;切換階段,其目的是為了將同步隨機梯度下降更新方法切換為多步延遲訓練模式;本地參數更新操作采用基于全局梯度的本地更新方法,目的是為了緩解權重延遲,保證模型的收斂精度;多步延遲訓練,其具體包括全局參數更新、本地參數更新和通信操作稀疏化三個步驟。本發明通過采用通信操作稀疏化,減緩了網絡擁塞,消除了同步開銷,很大程度降低了分布式訓練過程中的通信開銷,優化了訓練過程的通信開銷。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種分布式深度學習的訓練更新方法。
背景技術
深度學習最近在計算機視覺、自然語言處理、自動駕駛、智能醫療等各個領域都取得了很大的成功。深度學習的興起主要源于兩個條件,一是通用和定制化硬件加速器(GPU,NPU,TPU等)的出現,該類硬件加速器在計算能力方面帶來了巨大的進步,二是如ImageNet和CIFAR這樣的通用訓練數據集的開源。然而,隨著深度神經網絡和數據集規模的快速增長,用于訓練的機器的計算能力成為瓶頸,需要幾天或幾周才能完成一個大型神經網絡模型的訓練,在這種情況下,分布式訓練成為普遍的做法,它極大地提高了訓練效率,提升了神經網絡模型的研發速度。
隨機梯度下降(SGD)是廣泛用于分布式訓練的優化方法。同步SGD(SSGD)和異步SGD(ASGD)是在分布式深度學習訓練過程中最常用的兩種更新方法。SSGD方法可以保證模型良好的收斂精度,但訓練過程中的同步柵欄嚴重限制了分布式訓練的速度。在同步柵欄機制下提升SSGD方法的關鍵環節就是降低通信過程中通信流量,一方面可以顯著地減少通信開銷,另一方面可以減緩通信過程中的網絡擁塞情況,而后者可以很大程度降低同步柵欄機制引入的同步開銷。因此,梯度壓縮技術在通信優化領域引起了研究者們極大的關注,開展了一系列的優化工作。除去對通信開銷的優化,梯度壓縮技術也可以和系統層的很多優化方法結合使用,實現進一步的優化。但是,在應用梯度壓縮技術的過程中,程序員往往需要引入一些額外的優化措施來避免梯度的下降,如動量校正(Momentum Correction)、梯度裁剪(Gradient Clipping)和動量因子掩蓋(Momentum Factor Masking)等技術。此外,不同的梯度壓縮技術在使用過程中還需要注意一些額外的訓練細節,如深度梯度壓縮技術(Deep Gradient Compression,DGC)在訓練剛開始時,需要通過調整s變量的值來控制梯度的稀疏化效果,因為在模型穩定前進行較大程度的稀疏化處理會影響最終的收斂精度,需要通過逐漸減小s的值來實現更大程度的梯度稀疏化。對一個網絡模型進行分布式訓練過程中,顯然無法直接將梯度量化技術應用到每一層網絡的參數中。這些梯度壓縮技術的復雜性很大程度限制了它們的廣泛應用,因此需要設計一個更加簡便的降低通信開銷的方法,在降低通信開銷和提升系統資源利用率的同時,不會給用戶帶來額外復雜的操作。
為了消除SSGD方法中的同步開銷以加快分布式訓練的速度。考慮到權重延遲問題對模型訓練精度的影響,優化ASGD方法的關鍵就是保證模型的收斂精度,研究者們基于異步更新機制提出了不同的優化措施,雖然提高了模型最終的收斂精度,但額外引入的限制或操作一定程度降低了分布式訓練速度,使得訓練速度不可能超過原始的ASGD方法。因此,需要通過通信開銷優化,設計一個訓練速度優于ASGD方法,同時保證收斂精度的方法。基于SSGD和ASGD方法的特征,將它們各自的優勢進行結合很可能可以實現通信開銷的顯著下降,通過結合SSGD和ASGD方法的優勢,可設計一種更加通用的優化措施來優化通信開銷,在保證收斂精度的同時無需額外引入復雜的操作。
發明內容
為了消除SSGD方法中的同步開銷以加快分布式訓練的速度,同時減少權重延遲問題對模型訓練精度的影響,本發明公開了一種基于通信操作稀疏化的分布式深度學習多步延遲更新方法(SSD-SGD),其具體步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011312697.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可大幅提升熱回收率的熱泵機組
- 下一篇:電子元器件瑕疵定位方法及存儲介質





