[發明專利]基于超參優化的深度強化學習模型的訓練方法、裝置在審
| 申請號: | 202011621981.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN113723615A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 張玥;尹澤夏;霍雨森;王小波;鄭宇 | 申請(專利權)人: | 京東城市(北京)數字科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100086 北京市海淀區知*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 優化 深度 強化 學習 模型 訓練 方法 裝置 | ||
本申請公開了一種基于超參優化的深度強化學習模型的訓練方法、裝置,其中,方法包括:獲取多個初始超參數組合,和多個第一深度強化學習模型;采用初始超參數組合中的多個超參數訓練多個第一深度強化學習模型,以得到與多個第一深度強化學習模型分別對應的訓練評價指標;根據訓練評價指標從多個第一深度強化學習模型之中篩選出第二深度強化學習模型;采用與第二深度強化學習模型對應的多個目標超參數對初始超參數組合進行優化處理,以形成目標超參數組合;得到目標深度強化學習模型。由此,將超參數優化與模型訓練結合起來實現深度強化學習模型的訓練,不僅可訓練出性能更高的深度強化學習模型,而且可使訓練出的模型適應更廣泛的應用場景。
技術領域
本申請涉及計算機技術領域,尤其涉及一種基于超參優化的深度強化學習模型的訓練方法、裝置、電子設備、存儲介質和計算機程序產品。
背景技術
深度強化學習(Deep Reinforcement Learning,簡稱Deep RL)是近年來興起的一項技術,這項技術融合了深度學習和強化學習兩項技術。Deep RL具備對復雜系統中的高維狀態進行模式識別,并在此基礎上進行動作輸出的能力。基于深度強化學習,可以通過與環境進行交互,不斷試錯總結的方式進行學習。Deep RL適用于控制、決策以及復雜系統優化任務。在游戲、自動駕駛控制與決策、機器人控制、金融、工業系統控制優化等領域,Deep RL擁有巨大的潛在應用空間。但是,由于Deep RL的訓練需要與環境進行大規模交互,在大部分現實場景中都不具備這一條件,這一問題嚴重地制約了深度強化學習方法的落地。
為了解決這一問題,相關技術中提出了離線深度強化學習(Off-line Deep RL)技術,然而,目前Off-line Deep RL方法的訓練效果會隨著數據集的不同而效果偏差較大,導致所能達到的訓練效果仍存在適應性差、性能低的問題。
發明內容
本申請提供一種用于基于超參優化的深度強化學習模型的訓練方法、裝置。
根據本申請的第一方面,提供了一種基于超參優化的深度強化學習模型的訓練方法,包括:
獲取多個初始超參數組合,和多個第一深度強化學習模型;
采用所述初始超參數組合中的多個超參數訓練所述多個第一深度強化學習模型,以得到與所述多個第一深度強化學習模型分別對應的訓練評價指標;
根據所述訓練評價指標從多個第一深度強化學習模型之中篩選出第二深度強化學習模型;
采用與所述第二深度強化學習模型對應的多個目標超參數對所述初始超參數組合進行優化處理,以形成目標超參數組合;以及
采用所述目標超參數組合之中的多個超參數訓練所述第二深度強化學習模型,以得到目標深度強化學習模型。
根據本申請的第二方面,提供了一種基于超參優化的深度強化學習模型的訓練裝置,包括:
第一獲取模塊,用于獲取多個初始超參數組合,和多個第一深度強化學習模型;
第一訓練模塊,用于采用所述初始超參數組合中的多個超參數訓練所述多個第一深度強化學習模型,以得到與所述多個第一深度強化學習模型分別對應的訓練評價指標;
第一篩選模塊,用于根據所述訓練評價指標從多個第一深度強化學習模型之中篩選出第二深度強化學習模型;
第一處理模塊,用于采用與所述第二深度強化學習模型對應的多個目標超參數對所述初始超參數組合進行優化處理,以形成目標超參數組合;以及
第二訓練模塊,用于采用所述目標超參數組合之中的多個超參數訓練所述第二深度強化學習模型,以得到目標深度強化學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東城市(北京)數字科技有限公司,未經京東城市(北京)數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011621981.3/2.html,轉載請聲明來源鉆瓜專利網。





