[發明專利]一種基于強化學習的神經網絡自適應分布式并行訓練方法在審
| 申請號: | 202110406478.4 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113128702A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 吳吉央;曾艷;張紀林;袁俊峰;任永堅;周麗 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 神經網絡 自適應 分布式 并行 訓練 方法 | ||
1.一種基于強化學習的神經網絡自適應分布式并行訓練方法,其特征在于,所述方法包括以下步驟:
(1)分析神經網絡模型結構、計算屬性等對神經網絡執行性能的影響,提取包括計算代價、通信代價和內存使用率的性能因子,構建能夠全面體現分布式訓練性能的多維性能評價模型;
所述計算代價指參與運算的張量精度與設備計算密度比值,通信代價指通信量大小與通信帶寬比值,內存使用率指當前設備模型參數物理存儲大小與設備總內存比值;且所述性能因子還可擴展顯存和吞吐量;
(2)根據神經網絡模型結構特性和集群拓撲,構建分布式并行策略搜索空間;提取模型算子屬性,包括算子類型、輸入輸出以及相鄰節點索引,并根據算子屬性采用前饋網絡對模型所有算子進行自適應分組來確定深度網絡模型并行度,其中,同一算子組中的算子不適合并行執行,算子組之間適合并行執行;
(3)基于重要性采樣,采集強化學習訓練樣本,通過近端策略梯度方法迭代優化強化學習模型,尋找最優分布式并行策略。
2.根據權利要求1所述的一種基于強化學習的神經網絡自適應分布式并行訓練方法,其特征在于:步驟(1)中所述多維性能評價模型通過以下兩個步驟建立:
(1)通過計算代價Ei和通信代價Ci的復雜線性關系f預測獲得分布式并行策略單步運行時間rt=f(Ei,Ci);
(2)建立多維性能評價模型R=-log(αrt+βrc+γrm);其中;rt,rc和rm分別表示單步運行時間、峰值通信代價和峰值內存占用率,α,β和γ分別表示權重超參數,基于經驗調參,獲得最佳權重組合。
3.根據權利要求1所述的一種基于強化學習的神經網絡自適應分布式并行訓練方法,其特征在于:步驟(2)中所述確定深度網絡模型并行度是指:對算子屬性進行特征編碼,基于多維性能評價模型計算所得獎勵值,利用強化學習指導含有SoftMax的前饋神經網絡完成算子分組,將互相依賴且通信代價較高的算子分為一組,從而確定深度網絡模型并行度。
4.根據權利要求1所述的一種基于強化學習的神經網絡自適應分布式并行訓練方法,其特征在于:步驟(3)中所述近端策略梯度方法是指:分離采樣和優化模型對象,利用KL散度捕捉兩模型間差異,實現強化學習算法的離線迭代更新,引入指數移動平均獎勵基線b降低收斂方差。
5.根據權利要求2所述的一種基于強化學習的神經網絡自適應分布式并行訓練方法,其特征在于:所述復雜線性關系f通過如下方式構造:每個設備采用雙線程維護執行和通信兩個先進先出隊列構造策略執行過程,遵循如下原則:(1)只有當算子o所有依賴父節點均執行完畢,且獲取到所有依賴張量后才可以在當前設備執行;(2)計算與通信過程可相互重疊;(3)同一設備算子以串行方式執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110406478.4/1.html,轉載請聲明來源鉆瓜專利網。





