[發明專利]強化學習模型處理方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202110153700.4 | 申請日: | 2021-02-04 |
| 公開(公告)號: | CN112933604B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 楊少杰;郭仁杰;楊正云;楊木;武建芳;王善意;鄧志弘;朱恒滿;張正生;劉永升 | 申請(專利權)人: | 超參數科技(深圳)有限公司 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;G06N20/00 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 劉佳妮 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化 學習 模型 處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種強化學習模型處理方法、裝置、計算機設備和存儲介質。所述方法包括:當虛擬環境中多個不同陣營的虛擬角色之間進行交互時,獲取交互所產生的交互數據;通過圖形處理器和中央處理器分別對所述交互數據進行特征提取,并將所提取的特征進行合并得到角色特征;通過強化學習模型對所述角色特征進行特征處理,預測出每個虛擬角色對應的交互行為和獎勵值;基于包括所述角色特征、所述交互行為和所述獎勵值的訓練樣本,對與所述強化學習模型關聯的模型進行迭代訓練;當訓練所得的模型達到訓練停止條件時,將訓練所得的模型作為最終的強化學習模型。采用本方法能夠訓練得到的強化學習模型的精度。
技術領域
本申請涉及人工智能技術領域,特別是涉及一種強化學習模型處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著人工智能技術的發展,基于強化學習技術訓練得到的模型在各種各樣的交互場景上取得優異成績,例如OpenAI?five、AlphaStar甚至能夠擊敗人類頂級職業玩家。強化學習模型的訓練過程中需要獲取大量、且多樣化的訓練樣本,而怎樣獲取大量、多樣化、且能夠模擬實際交互過程的訓練樣本,并根據訓練樣本對強化學習模型進行訓練,以提高強化學習模型的精度,成為制約強化學習技術發展的重要問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高模型精度的強化學習模型處理方法、裝置、計算機設備和存儲介質。
一種強化學習模型處理方法,所述方法包括:
當虛擬環境中多個不同陣營的虛擬角色之間進行交互時,獲取交互所產生的交互數據;
通過圖形處理器和中央處理器分別對所述交互數據進行特征提取,并將所提取的特征進行合并得到角色特征;
通過強化學習模型對所述角色特征進行特征處理,預測出每個虛擬角色對應的交互行為和獎勵值;
基于包括所述角色特征、所述交互行為和所述獎勵值的訓練樣本,對與所述強化學習模型關聯的模型進行迭代訓練;
當訓練所得的模型達到訓練停止條件時,將訓練所得的模型作為最終的強化學習模型。
在一個實施例中,所述方法還包括:
當訓練所得的模型未達到所述訓練停止條件時,基于所述強化學習模型預測的交互行為控制所述多個不同陣營的虛擬角色之間進行交互的步驟,直至對與所述強化學習模型關聯的模型進行迭代訓練達到所述訓練停止條件;或者,
當訓練所得的模型未達到所述訓練停止條件時,根據訓練所得的模型對所述強化學習模型進行更新,基于更新后的所述強化學習模型預測的交互行為控制所述多個不同陣營的虛擬角色之間進行交互的步驟,直至對與所述強化學習模型關聯的模型進行迭代訓練達到所述訓練停止條件。
在一個實施例中,所述方法還包括:
對虛擬地圖進行分割,得到多個地圖子區域;
從所述地圖子區域中劃分出目標區域;
在各所述目標區域中投放至少兩個不同陣營的虛擬對戰隊伍;所述虛擬對戰隊伍由所述虛擬角色組成。
在一個實施例中,所述在各所述目標區域中投放至少兩個不同陣營的虛擬對戰隊伍,包括:
對各所述目標區域中的物資點進行聚類,分別得到包含聚類后物資點的至少兩個物資區域;
針對每個所述物資區域,根據所述物資區域的大小配置投放點;
從各所述物資區域對應的投放點中選取目標投放點,并針對每個所述物資區域對應的目標投放點投放兩個不同陣營的虛擬對戰隊伍。
在一個實施例中,所述通過圖形處理器和中央處理器分別對所述交互數據進行特征提取,并將所提取的特征進行合并得到角色特征,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于超參數科技(深圳)有限公司,未經超參數科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110153700.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種直接滑入式緊固連接管件的連接設備
- 下一篇:一種溶洞地質復合地基施工方法





