[發(fā)明專利]游戲中的人工智能訓(xùn)練方法及裝置、存儲介質(zhì)及電子裝置有效

申請?zhí)枺?/td>	201910156721.4	申請日：	2019-03-01
公開（公告）號：	CN109731338B	公開（公告）日：	2022-06-21
發(fā)明（設(shè)計）人：	宋研;陳贏峰;林磊;范長杰	申請（專利權(quán)）人：	網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
主分類號：	A63F13/70	分類號：	A63F13/70;G06N5/02
代理公司：	北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134	代理人：	趙昀彬
地址：	310000 浙江省杭州***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	游戲中的人工智能訓(xùn)練方法裝置存儲介質(zhì) 電子
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種游戲中的人工智能訓(xùn)練方法，所述人工智能以參數(shù)化動作作為游戲操作輸入，其特征在于，包括：

根據(jù)游戲中的參數(shù)化動作構(gòu)建策略網(wǎng)絡(luò)以及參數(shù)網(wǎng)絡(luò)集合，其中，所述參數(shù)網(wǎng)絡(luò)集合中包括至少一個參數(shù)網(wǎng)絡(luò)，所述策略網(wǎng)絡(luò)用于確定所述游戲中的參數(shù)化動作的動作標(biāo)識，所述參數(shù)網(wǎng)絡(luò)用于確定所述參數(shù)化動作的動作參數(shù)；

根據(jù)待訓(xùn)練的人工智能的狀態(tài)參數(shù)、所述策略網(wǎng)絡(luò)以及所述參數(shù)網(wǎng)絡(luò)集合進(jìn)行人工智能訓(xùn)練，以更新所述策略網(wǎng)絡(luò)和所述參數(shù)網(wǎng)絡(luò)集合；

其中，所述策略網(wǎng)絡(luò)是根據(jù)所述游戲中的預(yù)設(shè)策略所構(gòu)建的，所述預(yù)設(shè)策略是基于所述游戲中的運(yùn)行機(jī)制決定的；

其中，根據(jù)待訓(xùn)練的人工智能的狀態(tài)參數(shù)、所述策略網(wǎng)絡(luò)以及所述參數(shù)網(wǎng)絡(luò)對所進(jìn)行人工智能訓(xùn)練，以更新所述策略網(wǎng)絡(luò)和所述參數(shù)網(wǎng)絡(luò)集合包括：將待訓(xùn)練的人工智能的狀態(tài)參數(shù)輸入策略網(wǎng)絡(luò)，得到所述狀態(tài)參數(shù)對應(yīng)的第一參數(shù)化動作的動作標(biāo)識；將所述狀態(tài)參數(shù)輸入至所述動作標(biāo)識對應(yīng)的參數(shù)網(wǎng)絡(luò)，得到與所述第一參數(shù)化動作對應(yīng)的輸出參數(shù)；根據(jù)樣本集合進(jìn)行人工智能訓(xùn)練，以更新所述策略網(wǎng)絡(luò)和所述參數(shù)網(wǎng)絡(luò)集合，其中，所述樣本集合中至少包括由所述動作標(biāo)識、所述輸出參數(shù)以及動作反饋所構(gòu)成的訓(xùn)練樣本，所述動作反饋是控制所述待訓(xùn)練的人工智能執(zhí)行所述第一參數(shù)化動作產(chǎn)生的。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)游戲中的參數(shù)化動作構(gòu)建策略網(wǎng)絡(luò)以及參數(shù)網(wǎng)絡(luò)集合包括：

根據(jù)所述參數(shù)化動作的參數(shù)確定所述參數(shù)網(wǎng)絡(luò)集合。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述樣本集合還包括監(jiān)督樣本，其中：

所述監(jiān)督樣本是對所述訓(xùn)練樣本進(jìn)行預(yù)定調(diào)整得到，所述監(jiān)督樣本與所述訓(xùn)練樣本的比例為預(yù)設(shè)第一比例。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，根據(jù)樣本集合進(jìn)行人工智能訓(xùn)練，以更新所述策略網(wǎng)絡(luò)和所述參數(shù)網(wǎng)絡(luò)集合包括：

根據(jù)所述樣本集合對當(dāng)前策略網(wǎng)絡(luò)進(jìn)行更新，得到更新后的策略網(wǎng)絡(luò)；

根據(jù)所述狀態(tài)參數(shù)、所述更新后的策略網(wǎng)絡(luò)以及當(dāng)前參數(shù)網(wǎng)絡(luò)獲取更新后的樣本集合；

根據(jù)所述更新后的樣本集合對所述當(dāng)前參數(shù)網(wǎng)絡(luò)進(jìn)行更新，得到更新后的參數(shù)網(wǎng)絡(luò)。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，根據(jù)所述樣本集合對當(dāng)前策略網(wǎng)絡(luò)進(jìn)行更新，得到更新后的策略網(wǎng)絡(luò)包括：

對所述訓(xùn)練樣本進(jìn)行預(yù)定調(diào)整得到所述監(jiān)督樣本；

根據(jù)所述訓(xùn)練樣本以及所述監(jiān)督樣本構(gòu)建所述樣本集合；

根據(jù)所述樣本集合對所述當(dāng)前策略網(wǎng)絡(luò)進(jìn)行更新，得到所述更新后的策略網(wǎng)絡(luò)。

6.根據(jù)權(quán)利要求4所述的方法，其特征在于，根據(jù)所述狀態(tài)參數(shù)、所述更新后的策略網(wǎng)絡(luò)以及當(dāng)前參數(shù)網(wǎng)絡(luò)獲取更新后的樣本集合包括：

根據(jù)所述更新后的策略網(wǎng)絡(luò)以及所述當(dāng)前參數(shù)網(wǎng)絡(luò)確定所述狀態(tài)參數(shù)對應(yīng)的更新后的訓(xùn)練樣本；

對所述更新后的訓(xùn)練樣本進(jìn)行預(yù)定調(diào)整得到更新后的監(jiān)督樣本；

根據(jù)所述更新后的訓(xùn)練樣本以及所述更新后的監(jiān)督樣本構(gòu)建更新后的樣本集合，其中，所述更新后的監(jiān)督樣本與所述更新后的訓(xùn)練樣本的比例為所述預(yù)設(shè)第一比例；

根據(jù)所述更新后的訓(xùn)練樣本集合對所述當(dāng)前參數(shù)網(wǎng)絡(luò)進(jìn)行更新，得到所述更新后的參數(shù)網(wǎng)絡(luò)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司，未經(jīng)網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910156721.4/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：Unity中粒子特效創(chuàng)建方法、裝置、電子設(shè)備及存儲介質(zhì)
下一篇：檢測外掛的方法、存儲介質(zhì)

同類專利

專利分類

A 農(nóng)業(yè)

A63 運(yùn)動；游戲；娛樂活動
A63F 紙牌、棋盤或輪盤賭游戲；利用小型運(yùn)動物體的室內(nèi)游戲；其他類目不包含的游戲
A63F13-00 使用二維或多維電子顯示器
A63F13-02 .附件
A63F13-08 .結(jié)構(gòu)零件或布置，例如其他類目不包括的殼體、導(dǎo)線、連接件、操縱臺
A63F13-10 .游戲過程的控制，例如開始、進(jìn)行、結(jié)束
A63F13-12 .涉及若干游戲裝置之間的相互作用，例如傳送和分配系統(tǒng)
A63F13-04 ..用于命中顯示器上的特殊區(qū)域，如具有光電探測裝置的

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】