[發明專利]通過高效混合并行化減少深度神經網絡訓練次數在審
| 申請號: | 202011209924.4 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112836787A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 文穆吉爾·伊蘭戈 | 申請(專利權)人: | 百度(美國)有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/063;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;王艷春 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 高效 混合 并行 減少 深度 神經網絡 訓練 次數 | ||
1.一種包括一個或多個指令序列的非暫時性計算機可讀介質,所述一個或多個指令序列在由至少一個處理器執行時實現用于尋找對深度神經網絡DNN的層進行并行化以增加所述DNN的硬件利用率并減少所述DNN的訓練時間的有效策略的步驟,所述步驟包括:
獲得頂點序列,所述頂點序列中的頂點表示DNN的層,所述頂點序列已根據頂點排序策略排序,使得表示所述DNN的計算圖中的受限鄰居集合的大小得以減小;
對于每個頂點,使用遞歸來計算用于對所述DNN的頂點進行并行化的子策略,每個頂點與一個或多個根據成本函數來降低配置成本的有效配置相關聯;和
輸出具有用于所述計算圖的最低成本的策略。
2.如權利要求1所述的非暫時性計算機可讀介質,其中,所述受限鄰居集合是右相關頂點集合。
3.如權利要求2所述的非暫時性計算機可讀介質,其中,獲得所述頂點序列包括以下步驟:
對于頂點集合中的一個或多個頂點,初始化所述右相關頂點集合、末端頂點集合和未排序的頂點集合;
對于每個頂點,執行以下步驟:
從所述未排序的頂點集合中迭代地選擇具有最小右相關集合基數的頂點,并將所選擇的頂點分配給頂點序列;
更新所述末端頂點集合和所述右相關頂點集合,以正確保持用于所述DNN的計算圖中的右相關頂點集合的大小;和
輸出所述頂點序列作為有序的頂點序列。
4.如權利要求1所述的非暫時性計算機可讀介質,其中,所述遞歸包括一組末端集合。
5.如權利要求1所述的非暫時性計算機可讀介質,其中,所述成本函數忽略所述DNN的不同頂點中的層間管道并行以減小搜索空間,并考慮所述DNN的層內的管道并行。
6.如權利要求1所述的非暫時性計算機可讀介質,所述步驟還包括使用具有所述最低成本的所述策略來根據所述策略在多個設備上并行執行所述DNN以訓練所述DNN。
7.如權利要求1所述的非暫時性計算機可讀介質,所述步驟還包括從動態編程表中檢索所述一個或多個有效配置及其成本以提高計算速度。
8.如權利要求1所述的非暫時性計算機可讀介質或介質,其中,所述計算圖包括定義為通過無向路徑從頂點可達的左可達頂點集合。
9.一種包括一個或多個指令序列的非暫時性計算機可讀介質,所述指令序列在由至少一個處理器執行時實現以下步驟,所述步驟用于對深度神經網絡DNN的計算圖的頂點進行排序以產生有效的頂點序列,其中,所述頂點序列中的頂點表示DNN的層,進而有效地計算提高所述DNN的硬件利用率和減少所述DNN的訓練時間的最佳策略,所述步驟包括:
對于頂點集合中的一個或多個頂點,初始化右相關頂點集合、末端頂點集合和未排序的頂點集合;
對于每個頂點,執行以下步驟:
從所述未排序的頂點集合中迭代地選擇具有最小右相關集合基數的頂點,并將所選擇的頂點分配給頂點序列;
更新所述末端頂點集合和所述右相關頂點集合,使得計算圖中的右相關頂點集合的大小得以正確保持;和
輸出所述頂點序列作為有序的頂點序列。
10.如權利要求9所述的非暫時性計算機可讀介質,其中,所述計算圖表示DNN。
11.如權利要求9所述的非暫時性計算機可讀介質,其中,所述計算圖包括定義為通過無向路徑從頂點可達的左可達頂點集合。
12.如權利要求11所述的非暫時性計算機可讀介質,其中,所述頂點與一個或多個有效配置相關聯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度(美國)有限責任公司,未經百度(美國)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011209924.4/1.html,轉載請聲明來源鉆瓜專利網。





