[發(fā)明專利]通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置有效

申請?zhí)枺?/td>	202010018581.7	申請日：	2020-01-08
公開（公告）號：	CN111228818B	公開（公告）日：	2023-09-26
發(fā)明（設(shè)計）人：	蔡康	申請（專利權(quán)）人：	網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
主分類號：	A63F13/67	分類號：	A63F13/67;A63F13/30
代理公司：	北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134	代理人：	趙昀彬
地址：	310000 浙江省杭州***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	通信交互方法裝置存儲介質(zhì) 處理器電子
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置。該方法包括：基于預(yù)設(shè)通信協(xié)議向服務(wù)端發(fā)送請求消息，其中，請求消息中攜帶的信息至少包括：待執(zhí)行的動作信息集合；接收來自于服務(wù)端的與請求消息對應(yīng)的響應(yīng)消息，其中，響應(yīng)消息中攜帶的信息包括：服務(wù)端在動作信息集合執(zhí)行完畢之后采集到的狀態(tài)信息。本發(fā)明解決了相關(guān)技術(shù)所提供的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程較為繁瑣，操作復(fù)雜度較高的技術(shù)問題。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機領(lǐng)域，具體而言，涉及一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置。

背景技術(shù)

強化學(xué)習(xí)，又稱增強學(xué)習(xí)，是一種廣泛應(yīng)用于人工智能(ArtificialIntelligence，簡稱為AI)控制虛擬角色的行為訓(xùn)練的技術(shù)。簡而言之，即為一種根據(jù)環(huán)境反饋通過不斷試錯來迭代行為策略的學(xué)習(xí)方式，由狀態(tài)、動作、反饋三個元素構(gòu)成。圖1是根據(jù)相關(guān)技術(shù)的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程示意圖，如圖1所示，強化學(xué)習(xí)訓(xùn)練系統(tǒng)可以包含“模型訓(xùn)練→動作決策→模型與應(yīng)用場景通信→場景動作執(zhí)行→應(yīng)用場景與模型通信”這樣一個不斷循環(huán)迭代的過程。這五個步驟的執(zhí)行效率將會直接決定強化學(xué)習(xí)訓(xùn)練的效率。

以即時類游戲為例，即時類游戲是相對于回合制游戲而言的一類游戲，其主要特點在于：無論游戲玩家或者AI控制的虛擬游戲角色是否進行操作，游戲進度都會向前推進。相關(guān)技術(shù)中針對即時類游戲進行強化學(xué)習(xí)訓(xùn)練的方式通常分為以下兩種：

方式一、以訓(xùn)練環(huán)境作為服務(wù)端，以游戲環(huán)境(即上述應(yīng)用場景)作為客戶端，在游戲環(huán)境每執(zhí)行固定幀數(shù)之后，首先主動向訓(xùn)練環(huán)境發(fā)送狀態(tài)信息，其次訓(xùn)練環(huán)境向游戲環(huán)境返回動作決策，然后游戲環(huán)境再依據(jù)動作決策執(zhí)行動作；重復(fù)上述流程。

然而，此種方式的明顯缺陷在于：采用以游戲環(huán)境控制訓(xùn)練進度的方式，首先，從邏輯角度而言存在不合理之處，即任務(wù)需要完成強化學(xué)習(xí)的訓(xùn)練，而控制訓(xùn)練進度的位置并非位于訓(xùn)練環(huán)境而是位于游戲環(huán)境中；然后，強化學(xué)習(xí)訓(xùn)練目前的性能瓶頸通常在模型訓(xùn)練而并非游戲執(zhí)行上，這意味著如果在游戲環(huán)境上控制加速通信頻率從而加速訓(xùn)練，則訓(xùn)練環(huán)境可能會出現(xiàn)訓(xùn)練速度難以匹配通信頻率，進而導(dǎo)致整個系統(tǒng)運轉(zhuǎn)失常。

方式二、以游戲環(huán)境為服務(wù)端，以訓(xùn)練環(huán)境為客戶端，首先訓(xùn)練環(huán)境可以向游戲環(huán)境發(fā)送“查看當前狀態(tài)”的請求，其次游戲環(huán)境將當前游戲狀態(tài)返回至訓(xùn)練環(huán)境，然后訓(xùn)練環(huán)境還可以向游戲環(huán)境發(fā)送“執(zhí)行指定動作”的請求，最后游戲環(huán)境執(zhí)行指定動作；重復(fù)上述流程，并在此期間游戲持續(xù)進行。

然而，此種方式的明顯缺陷在于：采用以訓(xùn)練環(huán)境控制訓(xùn)練進度的方式，其控制精確性較差。在通信過程中，游戲環(huán)境一直保持自主運行；而游戲通常是按照以幀為單位的方式運行，即使訓(xùn)練環(huán)境能夠準確地定時向游戲環(huán)境發(fā)送請求，但是游戲的執(zhí)行間隔可能會受到網(wǎng)絡(luò)的波動、游戲自身幀率波動等多種不良狀況影響進而缺乏穩(wěn)定性，從而影響訓(xùn)練效果。除此之外，該方式中的強化學(xué)習(xí)模型為完成樣本數(shù)據(jù)收集需要至少發(fā)送兩次請求，由此不僅增加系統(tǒng)的操作復(fù)雜程度，而且還會減少系統(tǒng)的并發(fā)負載量。

針對上述的問題，目前尚未提出有效的解決方案。

發(fā)明內(nèi)容

本發(fā)明至少部分實施例提供了一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置，以至少解決相關(guān)技術(shù)所提供的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程較為繁瑣，操作復(fù)雜度較高的技術(shù)問題。

根據(jù)本發(fā)明其中一實施例，提供了一種通信交互方法，包括：

基于預(yù)設(shè)通信協(xié)議向服務(wù)端發(fā)送請求消息，其中，請求消息中攜帶的信息至少包括：待執(zhí)行的動作信息集合；接收來自于服務(wù)端的與請求消息對應(yīng)的響應(yīng)消息，其中，響應(yīng)消息中攜帶的信息包括：服務(wù)端在動作信息集合執(zhí)行完畢之后采集到的狀態(tài)信息。

可選地，請求消息中攜帶的信息還包括：進度指示信息，其中，進度指示信息用于指示服務(wù)端將應(yīng)用場景進度從第一時刻推進至第二時刻，并在第二時刻采集狀態(tài)信息，第一時刻早于第二時刻。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司，未經(jīng)網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010018581.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

A 農(nóng)業(yè)

A63 運動；游戲；娛樂活動
A63F 紙牌、棋盤或輪盤賭游戲；利用小型運動物體的室內(nèi)游戲；其他類目不包含的游戲
A63F13-00 使用二維或多維電子顯示器
A63F13-02 .附件
A63F13-08 .結(jié)構(gòu)零件或布置，例如其他類目不包括的殼體、導(dǎo)線、連接件、操縱臺
A63F13-10 .游戲過程的控制，例如開始、進行、結(jié)束
A63F13-12 .涉及若干游戲裝置之間的相互作用，例如傳送和分配系統(tǒng)
A63F13-04 ..用于命中顯示器上的特殊區(qū)域，如具有光電探測裝置的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】