[發明專利]模型訓練方法、裝置以及電子設備在審
| 申請號: | 202011048284.3 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112001455A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 孟凱;駱寶童;李盼盼;李振國;張恒華;胡在斌;黃凱文 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06N20/20 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 黃燦;胡永芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 以及 電子設備 | ||
本申請公開了模型訓練方法、裝置以及電子設備,涉及深度學習技術領域。具體實現方案為:第一電子設備向第二電子設備發送梯度數量;接收所述第二電子設備基于所述梯度數量發送的第一融合梯度;根據所述第一融合梯度與第二融合梯度,獲得目標融合梯度,其中,所述第二融合梯度根據從所述第一處理器對應的梯度隊列中取出的N個梯度進行融合獲得,N為所述梯度數量;向所述第二電子設備發送所述目標融合梯度;根據所述目標融合梯度,對所述第一電子設備的學習模型的參數進行更新。由于第二電子設備發送的第一融合梯度,對N個梯度進行了梯度融合,可減少第一電子設備與第二電子設備之間的通信次數,提高學習模型的訓練效率。
技術領域
本公開涉及計算機技術領域中的深度學習技術,尤其涉及一種模型訓練方法、裝置以及電子設備。
背景技術
深度學習發展迅速,模型的參數量越來越大,訓練模型的計算量也非常大,大型模型使用單個處理器,例如圖形處理器(Graphics Processing Unit,GPU)進行訓練需要耗時數天甚至數周,嚴重影響業務算法的快速迭代,分布式訓練可以使用多處理器同時對模型進行訓練,可提升訓練速度,但是分布式訓練中,多個處理器之間交互頻次高,對通信性能要求較高。
發明內容
本公開提供了一種模型訓練方法、裝置以及電子設備。
根據本公開的第一方面,提供了一種模型訓練方法,應用于第一電子設備,所述第一電子設備包括第一處理器,包括:
向第二電子設備發送梯度數量;
接收所述第二電子設備基于所述梯度數量發送的第一融合梯度;
根據所述第一融合梯度與第二融合梯度,獲得目標融合梯度,其中,所述第二融合梯度根據從所述第一處理器對應的梯度隊列中取出的N個梯度進行融合獲得,N為所述梯度數量;
向所述第二電子設備發送所述目標融合梯度;
根據所述目標融合梯度,對所述第一電子設備的學習模型的參數進行更新
根據本公開的第二方面,提供了一種模型訓練方法,應用于第二電子設備,所述第二電子設備包括第二處理器,包括:
接收第一電子設備發送的梯度數量;
向所述第一電子設備發送第一融合梯度,所述第一融合梯度根據從所述第二處理器對應的梯度隊列中取出的N個梯度融合獲得,N為所述梯度數量;
接收所述第一電子設備發送的所述目標融合梯度;
根據所述目標融合梯度,對所述第二電子設備的學習模型的參數進行更新。
根據本公開的第三方面,提供了一種模型訓練裝置,應用于第一電子設備,所述第一電子設備包括第一處理器,包括:
第一發送模塊,用于向第二電子設備發送梯度數量;
接收模塊,用于接收所述第二電子設備基于所述梯度數量發送的第一融合梯度;
第一獲取模塊,用于根據所述第一融合梯度與第二融合梯度,獲得目標融合梯度,其中,所述第二融合梯度根據從所述第一處理器對應的梯度隊列中取出的N個梯度進行融合獲得,N為所述梯度數量;
第二發送模塊,用于向所述第二電子設備發送所述目標融合梯度;
第一更新模塊,用于根據所述目標融合梯度,對所述第一電子設備的學習模型的參數進行更新。
根據本公開的第四方面,提供了一種模型訓練裝置,應用于第二電子設備,所述第二電子設備包括第二處理器,包括:
第一接收模塊,用于接收第一電子設備發送的梯度數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011048284.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能人臉識別終端
- 下一篇:一種緩解冠心病心絞痛的中藥穴位貼及其制備方法





