[發明專利]一種多個GPU并行的DNN模型訓練方法和裝置有效

申請號：	201710564223.4	申請日：	2017-07-12
公開（公告）號：	CN109255439B	公開（公告）日：	2021-04-02
發明（設計）人：	龔軼凡;靳江明;蘇磊	申請（專利權）人：	北京圖森智途科技有限公司
主分類號：	G06N3/08	分類號：	G06N3/08;G06N3/04
代理公司：	暫無信息	代理人：	暫無信息
地址：	101300 北京市順***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 gpu 并行 dnn 模型訓練方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開一種多個GPU并行的DNN模型訓練方法和裝置，用于解決現有技術中多個GPU并行訓練DNN模型時存在的訓練精度低的問題。該方法包括：在前向傳播處理過程中，接收前向BN輸入數據子集；確定全局前向BN輸入數據均值集合；根據全局前向BN輸入數據均值集合，對前向BN輸入數據子集進行前向BN處理，得到前向BN輸出數據子集；在后向傳播處理過程中，接收后向BN輸入數據子集；確定全局后向BN輸入數據均值集合；根據全局后向BN輸入數據均值集合、后向BN輸入數據子集和全局前向BN數據均值集合，對前向BN輸入數據子集進行后向BN處理，得到前向BN輸入數據子集中每個數據的梯度。

技術領域

本發明涉及信息處理領域，特別涉及一種多個圖形處理單元(GraphicsProcessing Unit，GPU)并行的深度神經網絡(Deep Neutral Network，DNN)模型訓練方法和裝置。

背景技術

目前在對圖片進行分類和分割的深度學習中，會進行DNN模型訓練。現有技術中存在一種多個GPU并行訓練的方法。將一張或多張圖片的數據(或稱為全局數據)按照GPU的數量分為多個數據子集，并將這多個數據子集對應分配給多個GPU，各GPU使用分配的數據子集對DNN模型進行訓練，以提高訓練的效率。具體地在實際處理的過程中，在一個訓練周期內，系統將獲得的一批訓練數據(data batch)(例如多張圖片)按照已有的GPU卡數目，分成相應份數的數據子集(sub batch)，并將數據子集分發給對應的GPU卡。在訓練時，每一塊GPU卡上會預先加載一套完整的待訓練的DNN模型，再使用分配到的數據子集去訓練該DNN模型。

由于每塊GPU獲得的數據不同，就會導致不同GPU卡訓練出來的DNN模型權重的梯度存在差異。

這種情況下會進行模型同步操作，即將不同GPU上訓練出來的梯度進行歸約合并，確定得到相同的梯度，再用該歸約合并得到的梯度去更新每塊GPU上的模型權重。

通過上述方案，多GPU并行訓練DNN模型的效率提高了，但是整體訓練的精度下降了，并且在GPU的數量越多時，精度下降的越明顯。

發明內容

鑒于上述問題，本發明提供了一種多個GPU并行的DNN模型訓練方法和裝置，用以解決現有技術中多個GPU并行訓練DNN模型時存在的訓練精度低的問題。

根據本申請的一個方面，一些實施例中提供了一種多個GPU并行的DNN模型訓練方法，包括：多個GPU中的一個GPU在對分配到的數據子集進行DNN模型訓練時，在前向傳播處理過程中，接收前向歸一化(BN)輸入數據子集；確定全局前向BN輸入數據均值集合；根據所述全局前向BN輸入數據均值集合，對所述前向BN輸入數據子集進行前向BN處理，得到前向BN輸出數據子集；

在后向傳播處理過程中，接收后向BN輸入數據子集，所述后向BN輸入數據子集是所述前向BN輸出數據子集的梯度集合；確定全局后向BN輸入數據均值集合；根據所述全局后向BN輸入數據均值集合、所述后向BN輸入數據子集和所述全局前向BN數據均值集合，對所述前向BN輸入數據子集進行后向BN處理，得到所述前向BN輸入數據子集中每個數據的梯度。

根據本申請的一個方面，一些實施例中提供了一種多GPU并行的DNN模型訓練裝置，所述裝置設置在多個GPU的每個GPU中，所述裝置包括：前向歸一化(BN)處理單元，用于在前向傳播處理過程中，接收前向BN輸入數據子集；確定全局前向BN輸入數據均值集合；根據所述全局前向BN輸入數據均值集合，對所述前向BN輸入數據子集進行前向BN處理，得到前向BN輸出數據子集；后向BN處理單元，用于在后向傳播處理過程中，接收后向BN輸入數據子集，所述后向BN輸入數據子集是所述前向BN輸出數據子集的梯度集合；確定全局后向BN輸入數據均值集合；根據所述全局后向BN輸入數據均值集合、所述后向BN輸入數據子集和所述全局前向BN數據均值集合，對所述前向BN輸入數據子集進行后向BN處理，得到所述前向BN輸入數據子集中每個數據的梯度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京圖森智途科技有限公司，未經北京圖森智途科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710564223.4/2.html，轉載請聲明來源鉆瓜專利網。