[發(fā)明專利]用于訓練學習機的方法和裝置有效
| 申請?zhí)枺?/td> | 201680076481.1 | 申請日: | 2016-03-18 |
| 公開(公告)號: | CN108431794B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設計)人: | 陳凱;霍強 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06N20/00;G06K9/62 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 王英;劉炳勝 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 訓練 學習機 方法 裝置 | ||
1.一種用于訓練學習機的方法,包括:
向多個工作節(jié)點廣播針對一訓練周期的初始全局模型;
從所述多個工作節(jié)點接收多個更新的局部模型,其中每一個更新的局部模型是由所述多個工作節(jié)點中的一個工作節(jié)點基于被分配給該工作節(jié)點的數(shù)據(jù)片和針對所述訓練周期的所述初始全局模型獨立地生成的;
聚合所述多個更新的局部模型以獲取聚合模型;以及
至少基于所述聚合模型和從在前的訓練周期獲取的歷史信息來生成針對所述訓練周期的更新的全局模型,
其中,生成針對所述訓練周期的更新的全局模型進一步包括:
基于所述聚合模型和針對所述訓練周期的所述初始全局模型來確定第一全局模型更新,
使用來自所述在前的訓練周期的所述歷史信息對所述第一全局模型更新進行過濾以確定第二全局模型更新,以及
基于針對所述在前的訓練周期的更新的全局模型和所述第二全局模型更新來生成針對所述訓練周期的所述更新的全局模型。
2.如權利要求1所述的方法,其中
針對所述訓練周期的所述初始全局模型是針對所述在前的訓練周期的更新的全局模型;或者
針對所述訓練周期的所述初始全局模型是基于針對所述在前的訓練周期的更新的全局模型和來自所述在前的訓練周期的所述歷史信息確定的。
3.如權利要求1所述的方法,其中
每一個更新的局部模型是利用以下算法中的一個生成的:利用動量手段的一個橫掃的小批量隨機梯度下降(SGD)、自然梯度SGD和異步SGD(ASGD)。
4.如權利要求1所述的方法,還包括:
基于所述第二全局模型更新來生成來自所述訓練周期的歷史信息。
5.如權利要求4所述的方法,其中
來自所述訓練周期的所述歷史信息Δ(t)利用以下等式生成:
Δ(t)=ηt·Δ(t-1)+ζt·G(t),0<ηt<1,ζt>0,
其中Δ(t-1)表示來自所述在前的訓練周期的所述歷史信息,
其中表示所述聚合模型,以及Wg(t-1)表示針對所述訓練周期的所述初始全局模型,
ηt是針對所述訓練周期的塊動量,以及
ζt是針對所述訓練周期的塊學習速率。
6.如權利要求5所述的方法,其中
ζt近似等于1。
7.如權利要求5所述的方法,其中
如果訓練迭代中的訓練周期的數(shù)目小,則ηt被設置為相對小。
8.如權利要求1所述的方法,其中聚合所述多個更新的局部模型進一步包括:
對所述多個更新的局部模型求平均以獲取所述聚合模型。
9.如權利要求1所述的方法,還包括:
在包括M’個訓練周期的訓練迭代之前,向每一個工作節(jié)點提供被分配給該工作節(jié)點用于所述訓練迭代的M’個數(shù)據(jù)片,其中M’是大于1的整數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經(jīng)微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680076481.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





