[發明專利]強化學習的遷移訓練優化方法、裝置、終端及存儲介質在審
| 申請號: | 201911057308.9 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110766169A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 梁新樂;劉洋;陳天健;董苗波 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 44287 深圳市世紀恒程知識產權代理事務所 | 代理人: | 王韜 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 預設 聯邦模型 訓練模型 訓練設備 計算機可讀存儲介質 遷移 優化 傳輸數據 工業強化 模型訓練 強化訓練 用戶數據 整體效率 終端設備 長時延 傳統的 適配 隱私 學習 | ||
1.一種強化學習的遷移訓練優化方法,其特征在于,所述強化學習的遷移訓練優化方法,包括:
獲取各預設環境的訓練設備基于強化學習訓練所得到的各訓練模型;
對各所述訓練模型進行聯邦處理以生成聯邦模型;
將所述聯邦模型遷移適配至各所述預設環境,以供各所述預設環境的訓練設備根據所述聯邦模型優化強化學習訓練。
2.如權利要求1所述的強化學習的遷移訓練優化方法,其特征在于,所述將所述聯邦模型遷移適配至各所述預設環境的步驟,包括:
讀取各所述預設環境的環境參數;
按照所述環境參數對所述聯邦模型進行調整以將所述聯邦模型遷移適配至各所述預設環境。
3.如權利要求1所述的強化學習的遷移訓練優化方法,其特征在于,各所述預設環境包括:各仿真環境和各現實環境,
所述獲取各預設環境的訓練設備基于強化學習訓練所得到的各訓練模型的步驟,包括:
按照預設周期獲取各所述仿真環境的訓練設備基于實時強化學習訓練完成的各訓練模型;
按照所述預設周期獲取各所述現實環境的訓練設備基于實時強化學習訓練完成的各訓練模型。
4.如權利要求3所述的強化學習的遷移訓練優化方法,其特征在于,在所述按照預設周期獲取各所述仿真環境的訓練設備基于實時強化學習訓練完成的各訓練模型的步驟之前,還包括:
構建與各所述現實環境相對應的各所述仿真環境,并在各所述仿真環境中基于所述訓練設備實時進行強化學習訓練以得到所述訓練模型。
5.如權利要求4所述的強化學習的遷移訓練優化方法,其特征在于,所述構建與各所述現實環境相對應的各所述仿真環境的步驟,包括:
檢測各所述現實環境所屬的工業領域;
調用所述工業領域的模擬軟件構建各所述仿真環境,其中構建出的所述仿真環境的個數大于等于所述現實環境的個數。
6.如權利要求1所述的強化學習的遷移訓練優化方法,其特征在于,所述對各所述訓練模型進行聯邦處理以生成聯邦模型的步驟,包括:
提取對各所述訓練模型進行聯邦處理的預設聯邦學習規則,其中,所述聯邦學習規則屬于橫向聯邦學習技術;
按照所述預設聯邦學習規則,將各所述訓練模型融合為聯邦模型。
7.如權利要求6所述的強化學習的遷移訓練優化方法,其特征在于,所述將各所述訓練模型融合為聯邦模型的步驟,包括:
讀取當前時刻獲取到的各所述訓練模型;
將獲取到的各所述訓練模型融合為各所述預設環境的訓練設備進行強化學習訓練的聯邦模型。
8.一種強化學習的遷移訓練優化裝置,其特征在于,所述強化學習的遷移訓練優化裝置,包括:
獲取模塊,用于獲取各預設環境的訓練設備基于強化學習訓練所得到的各訓練模型;
聯邦模塊,用于對各所述訓練模型進行聯邦處理以生成聯邦模型;
遷移訓練模塊,用于將所述聯邦模型遷移適配至各所述預設環境,以供各所述預設環境所述訓練設備根據所述聯邦模型優化強化學習訓練。
9.一種終端設備,其特征在于,所述終端設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的強化學習的遷移訓練優化程序,所述強化學習的遷移訓練優化程序被所述處理器執行時實現如權利要求1至7中任一項所述的強化學習的遷移訓練優化方法的步驟。
10.一種存儲介質,其特征在于,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的強化學習的遷移訓練優化方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911057308.9/1.html,轉載請聲明來源鉆瓜專利網。





