[發(fā)明專利]強(qiáng)化學(xué)習(xí)模型處理方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110153700.4 | 申請日: | 2021-02-04 |
| 公開(公告)號: | CN112933604B | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計)人: | 楊少杰;郭仁杰;楊正云;楊木;武建芳;王善意;鄧志弘;朱恒滿;張正生;劉永升 | 申請(專利權(quán))人: | 超參數(shù)科技(深圳)有限公司 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;G06N20/00 |
| 代理公司: | 華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 劉佳妮 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵海街道高*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 強(qiáng)化 學(xué)習(xí) 模型 處理 方法 裝置 計算機(jī) 設(shè)備 存儲 介質(zhì) | ||
1.一種強(qiáng)化學(xué)習(xí)模型處理方法,其特征在于,所述方法包括:
當(dāng)虛擬環(huán)境中多個不同陣營的虛擬對戰(zhàn)隊伍中虛擬角色之間進(jìn)行交互時,獲取交互所產(chǎn)生的交互數(shù)據(jù);所述多個不同陣營的虛擬對戰(zhàn)隊伍分別投放于對虛擬地圖進(jìn)行分割所得的地圖子區(qū)域中的目標(biāo)區(qū)域;
將通過圖形處理器從所述交互數(shù)據(jù)中提取的深度圖特征與通過中央處理器從所述交互數(shù)據(jù)中提取的向量特征與切面圖特征進(jìn)行合并,得到角色特征;
通過強(qiáng)化學(xué)習(xí)模型對所述角色特征進(jìn)行特征處理,預(yù)測出每個虛擬角色對應(yīng)的交互行為和獎勵值;
基于包括所述角色特征、所述交互行為和所述獎勵值的訓(xùn)練樣本,對與所述強(qiáng)化學(xué)習(xí)模型關(guān)聯(lián)的模型進(jìn)行迭代訓(xùn)練;
當(dāng)訓(xùn)練所得的模型達(dá)到訓(xùn)練停止條件時,將訓(xùn)練所得的模型作為最終的強(qiáng)化學(xué)習(xí)模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
當(dāng)訓(xùn)練所得的模型未達(dá)到所述訓(xùn)練停止條件時,基于所述強(qiáng)化學(xué)習(xí)模型預(yù)測的交互行為控制所述多個不同陣營的虛擬角色之間進(jìn)行交互的步驟,直至對與所述強(qiáng)化學(xué)習(xí)模型關(guān)聯(lián)的模型進(jìn)行迭代訓(xùn)練達(dá)到所述訓(xùn)練停止條件;或者,
當(dāng)訓(xùn)練所得的模型未達(dá)到所述訓(xùn)練停止條件時,根據(jù)訓(xùn)練所得的模型對所述強(qiáng)化學(xué)習(xí)模型進(jìn)行更新,基于更新后的所述強(qiáng)化學(xué)習(xí)模型預(yù)測的交互行為控制所述多個不同陣營的虛擬角色之間進(jìn)行交互的步驟,直至對與所述強(qiáng)化學(xué)習(xí)模型關(guān)聯(lián)的模型進(jìn)行迭代訓(xùn)練達(dá)到所述訓(xùn)練停止條件。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
對虛擬地圖進(jìn)行分割,得到多個地圖子區(qū)域;
從所述地圖子區(qū)域中劃分出目標(biāo)區(qū)域;
在各所述目標(biāo)區(qū)域中投放至少兩個不同陣營的虛擬對戰(zhàn)隊伍;所述虛擬對戰(zhàn)隊伍由所述虛擬角色組成。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述在各所述目標(biāo)區(qū)域中投放至少兩個不同陣營的虛擬對戰(zhàn)隊伍,包括:
對各所述目標(biāo)區(qū)域中的物資點(diǎn)進(jìn)行聚類,分別得到包含聚類后物資點(diǎn)的至少兩個物資區(qū)域;
針對每個所述物資區(qū)域,根據(jù)所述物資區(qū)域的大小配置投放點(diǎn);
從各所述物資區(qū)域?qū)?yīng)的投放點(diǎn)中選取目標(biāo)投放點(diǎn),并針對每個所述物資區(qū)域?qū)?yīng)的目標(biāo)投放點(diǎn)投放兩個不同陣營的虛擬對戰(zhàn)隊伍。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將通過圖形處理器從所述交互數(shù)據(jù)中提取的深度圖特征與通過中央處理器從所述交互數(shù)據(jù)中提取的向量特征與切面圖特征進(jìn)行合并,得到角色特征,包括:
通過所述圖形處理器從所述交互數(shù)據(jù)中提取深度圖特征;
通過所述中央處理器從所述交互數(shù)據(jù)中提取向量特征和切面圖特征;
將所述深度圖特征、所述向量特征和所述切面圖特征進(jìn)行合并,得到所述角色特征。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述通過所述圖形處理器從所述交互數(shù)據(jù)中提取深度圖特征,包括:
從所述交互數(shù)據(jù)中提取每個虛擬游戲角色對應(yīng)的位置信息;
將所述位置信息發(fā)送至所述圖形處理器,以使所述圖形處理器根據(jù)所述位置信息生成每個虛擬角色對應(yīng)的深度圖特征。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述通過所述中央處理器從所述交互數(shù)據(jù)中提取向量特征和切面圖特征,包括:
將每個虛擬角色對應(yīng)的交互數(shù)據(jù)分發(fā)至線程池中不同的特征提取線程;
通過各特征提取線程對所述交互數(shù)據(jù)進(jìn)行特征提取,得到每個虛擬角色對應(yīng)的向量特征和切面圖特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于超參數(shù)科技(深圳)有限公司,未經(jīng)超參數(shù)科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110153700.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





