[發明專利]模型生成方法和裝置在審
| 申請號: | 201811536493.5 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109670579A | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 胡耀全 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 處理器 訓練模型 模型生成 實際輸出 訓練樣本 方法和裝置 網絡參數 子集 反向傳播 前向傳播 預先指定 發送 更新 | ||
1.一種模型生成方法,包括:
向至少兩個處理器中的處理器,發送訓練樣本集中的訓練樣本子集,其中,處理器用于:基于待訓練模型和接收到的訓練樣本子集,前向傳播確定待訓練模型的實際輸出;
對于所述至少兩個處理器中的處理器,獲取該處理器確定的待訓練模型的實際輸出;
基于所獲取的實際輸出,進行反向傳播,確定待訓練模型中預先指定的第一網絡參數對應的第一梯度;
根據所述第一梯度,更新所述第一網絡參數。
2.根據權利要求1所述的方法,其中,所述第一網絡參數包括批量歸一化層中的網絡參數。
3.根據權利要求1所述的方法,其中,所述至少兩個處理器中的處理器還用于:
基于該處理器確定的實際輸出,進行誤差反向傳播,確定待訓練模型中預先指定的第二網絡參數對應的第二梯度。
4.根據權利要求3所述的方法,其中,所述方法還包括:
對于所述至少兩個處理器中的處理器,獲取該處理器確定的第二梯度;
根據所獲取的第二梯度,更新所述第二網絡參數。
5.根據權利要求1-4中任一項所述的方法,其中,處理器還用于:
采用第一精度類型的數據進行前向傳播計算;
采用第二精度類型的數據進行反向傳播計算,其中,上述第一精度類型和上述第二精度類型不同。
6.根據權利要求5所述的方法,其中,所述第一精度類型或者第二精度類型為半精度類型。
7.根據權利要求5所述的方法,其中,所述根據所述第一梯度,更新所述第一網絡參數,包括:
采用第二精度類型的數據進行反向傳播,確定待訓練模型中預先指定的第一網絡參數對應的第一梯度。
8.一種模型生成裝置,包括:
發送單元,被配置成向至少兩個處理器中的處理器,發送訓練樣本集中的訓練樣本子集,其中,處理器用于:基于待訓練模型和接收到的訓練樣本子集,前向傳播確定待訓練模型的實際輸出;
第一獲取單元,被配置成對于所述至少兩個處理器中的處理器,獲取該處理器確定的待訓練模型的實際輸出;
確定單元,被配置成基于所獲取的實際輸出,進行反向傳播,確定待訓練模型中預先指定的第一網絡參數對應的第一梯度;
第一更新單元,被配置成根據所述第一梯度,更新所述第一網絡參數。
9.根據權利要求8所述的裝置,其中,所述第一網絡參數包括批量歸一化層中的網絡參數。
10.根據權利要求8所述的裝置,其中,所述至少兩個處理器中的處理器還用于:
基于該處理器確定的實際輸出,進行誤差反向傳播,確定待訓練模型中預先指定的第二網絡參數對應的第二梯度。
11.根據權利要求10所述的裝置,其中,所述裝置還包括:
第二獲取單元,被配置成對于所述至少兩個處理器中的處理器,獲取該處理器確定的第二梯度;
第二更新單元,被配置成根據所獲取的第二梯度,更新所述第二網絡參數。
12.根據權利要求8-11中任一項所述的裝置,其中,處理器還用于:
采用第一精度類型的數據進行前向傳播計算;
采用第二精度類型的數據進行反向傳播計算,其中,上述第一精度類型和上述第二精度類型不同。
13.根據權利要求12所述的裝置,其中,所述第一精度類型或者第二精度類型為半精度類型。
14.根據權利要求12所述的裝置,其中,所述第一確定單元還被配置成包括:
采用第二精度類型的數據進行反向傳播,確定待訓練模型中預先指定的第一網絡參數對應的第一梯度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811536493.5/1.html,轉載請聲明來源鉆瓜專利網。





