[發明專利]一種神經網絡模型的訓練方法、裝置及芯片有效
| 申請號: | 201611076461.2 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN108122027B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 白小龍;張長征;夏命榛 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 馮艷蓮 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經網絡 模型 訓練 方法 裝置 芯片 | ||
本發明實施例涉及機器學習領域,尤其涉及一種神經網絡模型的訓練方法、裝置及芯片,用以降低神經網絡模型訓練過程中的服務器模塊和各個工作模塊之間的通訊量。本發明實施例中根據每層的模型參數集合中的預估數據量和輸出數據的預估數據量,確定每層的模型訓練方式,在第j層為模型并行訓練方式的情況下,由于第二輸出數據為m個工作模塊第j?1層訓練的輸出數據,因此工作模塊根據第二輸出數據進行模型參數訓練,可直接得到模型參數的全局梯度,相比于現有技術中工作模塊向服務器模塊上推模型參數的局部梯度,并從服務器模塊下拉模型參數的全局梯度之后才得到模型參數的全局梯度的方案,減少了工作模塊和服務器模塊之間的通訊量。
技術領域
本發明實施例涉及神經網絡模型訓練領域,尤其涉及一種神經網絡模型的訓練方法、裝置及芯片。
背景技術
自深度學習在大規模圖像分類數據集上獲得巨大成功之后,無論是學術界、政府還是工業界都在大力推動深度學習的發展,并不斷取得新的成績。前饋神經網絡模型作為深度學習中主要的一種模型形式,目前開始廣泛應用于人臉識別、圖像分類、目標檢測、視頻分析等任務,正在迅速被各大機器視覺廠商所采用用于智能化圖像、視頻處理等產品。目前前饋神經網絡模型的深度越來越深,結構越來越復雜,例如,在很多智能圖像、視頻處理的任務中,數據每時每刻都在不斷增加,這就要求訓練系統的訓練速度足夠快且快速更新以滿足最新的任務需求。
目前前饋神經網絡模型的訓練加速主要依靠大規模分布式并行計算系統進行。目前較為常用的是參數服務器(英文可稱為parameter sever)計算架構,配合有效的隨機梯度下降算法(英文可稱為Stochastic gradient descent)進行訓練。圖1示例性示出了現有技術中一種分布式系統架構示意圖,如圖1所示,包括服務器模塊集合(英文可稱為servers)101和工作模塊集合(英文可稱為workers)102,服務器模塊集合可包括多個服務器模塊(英文可稱為server),工作模塊集合可包括多個工作模塊(英文可稱為worker),服務器模塊與主服務器(英文可稱為master)節點類似,工作模塊可指代計算執行器。分布式系統架構中包括多個分布式的節點,每個節點可包括一個或多個工作模塊,也還可包括一個或多個服務器模塊。
以圖1為例,對分布式系統架構下服務器模塊和工作模塊之間的信令交互過程進行詳細介紹。圖1中包括N個工作模塊以及M個服務器模塊,N和M為大于等于1的整數。神經網絡模型包括L層,L為大于等于1的整數,每層包括多個模型參數。每個工作模塊進行多次迭代計算,在每次迭代計算中,工作模塊通過對L層進行前向算法和后向算法,得到神經網絡模型中的模型參數的局部梯度,之后每個工作模塊將所有模型參數的局部梯度上傳至服務器模塊,服務器模塊計算出每個模型參數的全局梯度,并將全局梯度從服務器模塊下拉至每個工作模塊,每個工作模塊根據得到的每個模型參數的全局梯度更新各個模型參數,并根據更新后的各個模型參數進行下一次迭代。
上述方案中,由于神經網絡模型的L層中包括大量的模型參數,因此應用該方案將導致各個工作模塊向服務器模塊上推大量的模型參數的局部梯度,以及從服務器模塊下拉大量的模型參數的全局梯度,導致服務器模塊和各個工作模塊之間存在較大的信息通訊量的問題。
發明內容
本發明實施例提供一種神經網絡模型的訓練方法、裝置及芯片,用以降低神經網絡模型訓練過程中的服務器模塊和各個工作模塊之間的通訊量,從而提高神經網絡模型訓練速度。
第一方面,本發明實施例提供一種神經網絡模型的訓練方法,方法用于包括M個工作模塊的訓練系統,神經網絡模型包括L層,M和L為大于等于1的整數;針對神經網絡模型的L層中的每層,都使用M個工作模塊中的至少一個工作模塊對該層進行訓練;方法包括:針對神經網絡模型的L層中的每層,至少一個工作模塊中的每個工作模塊根據該層的模型參數集合中的預估數據量和輸出數據的預估數據量,確定該層的模型訓練方式;其中,模型訓練方式包括數據并行訓練方式和模型并行訓練方式;模型參數集合包括該層的所有模型參數。至少一個工作模塊中的每個工作模塊都執行以下操作以對該層進行訓練:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611076461.2/2.html,轉載請聲明來源鉆瓜專利網。





