[發明專利]一種兼容多種訓練方式的深度學習分布式訓練方法與系統在審
| 申請號: | 202010132499.7 | 申請日: | 2020-02-29 |
| 公開(公告)號: | CN111340235A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 朱紅;趙旭東 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 濟南誠智商標專利事務所有限公司 37105 | 代理人: | 李修杰 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 兼容 多種 訓練 方式 深度 學習 分布式 方法 系統 | ||
本發明提供了一種兼容多種訓練方式的深度學習分布式訓練方法與系統,本發明通過對深度學習分布式訓練接口進行定義,兼容不同分布式訓練實現方式,可有效減少用戶在使用分布式算法進行模型訓練時的代碼改動量,用戶只需定義一個,metatrainer的實例,并用該實例來訓練模型,就可以適配不同的硬件計算規模;另外可有效的豐富用戶在開發分布式模型訓練過程中所能采用的算法及技術,可方便的在多個技術之間切換,只需在定義metatrainer實例時,選用不同的distributed_backend參數即可實現不同的分布式算法,使用同一個接口,即可兼容后臺多種不同的分布式訓練實現方式,從而大大減小用戶在不同分布式算法間切換代碼的難度。
技術領域
本發明涉及深度學習技術領域,特別是一種兼容多種訓練方式的深度學習分布式訓練方法與系統。
背景技術
目前,深度學習技術方興未艾,在多個應用領域取得了長足的發展,展現出廣闊的應用前景,這些應用領域包括人臉識別、推薦系統、智能語音助手以及無人駕駛等等。但是無論上述哪個領域,應用落地的前提都是設計和訓練復雜的深度學習模型,可以看到的是,盡管現有硬件計算設備的計算能力與日俱增,比如現行通用的由Nvidia公司發布的V100GPU單卡的計算能力達到了120TFlops,但是這也不足以滿足所有深度學習模型的訓練需求,比如目前在自然語言處理領域廣泛使用的bert模型,其如果使用單張V100 GPU卡進行訓練的話,整個訓練時間估計在一年以上。
因此需要更大規模的分布式深度學習計算來解決上述模型的訓練問題。分布式深度學習即為在多個計算設備上同時對一個深度學習模型進行訓練的方法。為了實施這一方法,諸多因素和細節都需要考慮并被合理的處理。常見的算法主要包括模型并行和數據并行,兩者當中,數據并行的思路由于其實現相對簡單,計算效率高,是應用更為普遍的一種方法。
當前典型的深度學習計算框架都或多或少的實現了一些基于數據并行的分布式訓練方法,比如pytorch中的torch.nn.DataParallel模塊和深度學習框架tensorflow中的mirroredstrategy(鏡像)模塊。對于tensorflow中的mirroredstrategy模塊,其初始化一個strategy變量,并把模型定義、優化器定義以及模型的編譯部分放到scope函數代碼段中,然后按照常規的模型訓練方式,即可實現分布式的模型訓練。但其需要將大量的代碼置于scope(作用域)函數下,如果模型的定義邏輯較為復雜的話,存在大量的代碼修改,另外整個策略只適用于單個計算節點內有多個設備,比如有多個GPU卡的情況,不能方便的擴展到多個計算節點的分布式并行,從而在更大的計算規模上進行模型的并行訓練。
為了解決上述問題,Uber的工程師開發的horovod分布式訓練框架,通過接入mpi通信協議來實現跨計算節點的分布式通信方式。但其缺點是需要用戶完成所有操作,任何遺漏都可造成模型訓練過程的錯誤以及模型不收斂等意外情況,這些操作使得horovod對于不熟悉多進程計算過程的用戶存在一定的使用門檻。
發明內容
本發明的目的是提供一種兼容多種訓練方式的深度學習分布式訓練方法與系統,旨在解決現有技術中缺少兼容多種訓練方式的分布式訓練框架的問題,實現使用同一個接口即可兼容后臺多種不同的分布式訓練實現方式,減小用戶在不同分布式算法間切換代碼的難度。
為達到上述技術目的,本發明提供了一種兼容多種訓練方式的深度學習分布式訓練方法,所述方法包括以下步驟:
S1、基于深度學習框架tensorflow定義一個統一的模型訓練接口;
S2、模型訓練接口在初始化時根據定義的GPU數目以及計算節點數目判斷是否進行分布式訓練;
S3、通過模型訓練接口的算法策略參數指明實際的分布式算法策略,包括基于深度學習框架tensorflow中的鏡像策略、基于深度學習框架horovod的策略以及默認策略;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010132499.7/2.html,轉載請聲明來源鉆瓜專利網。





