[發明專利]一種多模型訓練方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011335125.1 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112541570A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 王浩宇;王小捷;江會星;王仲遠 | 申請(專利權)人: | 北京三快在線科技有限公司;北京郵電大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
1.一種多模型訓練方法,其特征在于,包括:
確定待訓練的第一網絡模型和待訓練的第二網絡模型,所述第一網絡模型和所述第二網絡模型為相互關聯的兩個網絡模型;
利用訓練樣本,對所述第一網絡模型和所述第二網絡模型進行合作式訓練,并根據訓練結果對所述第一網絡模型和所述第二網絡模型各自的網絡參數進行多次更新,直至訓練結束,其中,所述第一網絡模型的輸出為所述第二網絡模型的輸入,所述第二網絡模型的輸出為所述第一網絡模型的輸入;
將訓練結束時第一網絡模型確定為第一目標網絡模型,并將訓練結束時的第二網絡模型確定為第二目標網絡模型。
2.根據權利要求1所述的方法,其特征在于,所述方法應用于運行有主進程和子進程的設備,利用訓練樣本,對所述第一網絡模型和所述第二網絡模型進行合作式訓練,包括:
所述子進程從所述主進程中獲取第一全局網絡模型和第二全局網絡模型各自的當前全局參數;
所述子進程以獲取到的當前全局參數,構建第一局部網絡模型和第二局部網絡模型;
所述子進程利用訓練樣本對所述第一局部網絡模型和所述第二局部網絡模型進行合作式訓練;
根據訓練結果對所述第一網絡模型和所述第二網絡模型各自的網絡參數進行多次更新,直至訓練結束,包括:
所述子進程根據訓練結果,確定所述第一局部網絡模型和所述第二局部網絡模型各自的梯度值;
所述子進程將所述第一局部網絡模型和所述第二局部網絡模型各自的梯度值上傳到所述主進程中;
所述主進程根據所述第一局部網絡模型的梯度值,對所述第一全局網絡模型的當前全局參數進行更新,以及,根據所述第二局部網絡模型的梯度值,對所述第二全局網絡模型的當前全局參數值進行更新。
3.根據權利要求2所述的方法,其特征在于,所述子進程包括相互獨立的多個子進程,所述多個子進程中的任一子進程為目標子進程;所述目標子進程將所述第一局部網絡模型和所述第二局部網絡模型各自的梯度值上傳到所述主進程中之后,還包括:
所述目標子進程從所述主進程中獲取所述第一全局網絡模型和所述第二全局網絡模型各自的更新后的全局參數;
所述目標子進程將所述第一局部網絡模型和所述第二局部網絡模型各自的當前局部參數更新為所述更新后的全局參數;
所述目標子進程對參數更新后的第一局部網絡模型和參數更新后的第二局部網絡模型再次進行合作式訓練,以使所述主進程對所述第一全局網絡模型和所述第二全局網絡模型的當前全局參數進行再次更新。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
所述主進程對所述第一全局網絡模型和所述第二全局網絡模型的訓練樣本進行劃分,得到所述多個子進程各自的互不相同的訓練樣本;或
所述多個子進程各自進行隨機初始化,得到各自的訓練樣本。
5.根據權利要求1-4任一所述的方法,其特征在于,所述第一網絡模型和所述第二網絡模型為兩個強化學習模型;利用訓練樣本,對所述第一網絡模型和所述第二網絡模型進行合作式訓練,包括:
根據訓練樣本,將所述第一網絡模型的狀態設置為目標狀態;
將所述第一網絡模型在所述目標狀態下產生的動作,設置為所述第二網絡模型的狀態;
根據所述第一網絡模型的狀態、所述第一網絡模型在該狀態下產生的動作、以及所述第一網絡模型在所述該狀態下產生的動作對應的獎勵值,確定所述第一網絡模型的梯度值;
根據所述第二網絡模型的狀態、所述第二網絡模型在該狀態下產生的動作、以及所述第二網絡模型在所述該狀態下產生的動作對應的獎勵值,確定所述第二網絡模型的梯度值。
6.根據權利要求5所述的方法,其特征在于,根據訓練結果,根據訓練結果對所述第一網絡模型和所述第二網絡模型各自的網絡參數進行多次更新,包括:
根據所述第一網絡模型的梯度值,對所述第一網絡模型的網絡參數進行更新;
根據所述第二網絡模型的梯度值,對所述第二網絡模型的網絡參數進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司;北京郵電大學,未經北京三快在線科技有限公司;北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011335125.1/1.html,轉載請聲明來源鉆瓜專利網。





