[發(fā)明專利]通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置有效
| 申請?zhí)枺?/td> | 202010018581.7 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111228818B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 蔡康 | 申請(專利權(quán))人: | 網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;A63F13/30 |
| 代理公司: | 北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 趙昀彬 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通信 交互 方法 裝置 存儲 介質(zhì) 處理器 電子 | ||
本發(fā)明公開了一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置。該方法包括:基于預(yù)設(shè)通信協(xié)議向服務(wù)端發(fā)送請求消息,其中,請求消息中攜帶的信息至少包括:待執(zhí)行的動作信息集合;接收來自于服務(wù)端的與請求消息對應(yīng)的響應(yīng)消息,其中,響應(yīng)消息中攜帶的信息包括:服務(wù)端在動作信息集合執(zhí)行完畢之后采集到的狀態(tài)信息。本發(fā)明解決了相關(guān)技術(shù)所提供的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程較為繁瑣,操作復(fù)雜度較高的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置。
背景技術(shù)
強化學(xué)習(xí),又稱增強學(xué)習(xí),是一種廣泛應(yīng)用于人工智能(ArtificialIntelligence,簡稱為AI)控制虛擬角色的行為訓(xùn)練的技術(shù)。簡而言之,即為一種根據(jù)環(huán)境反饋通過不斷試錯來迭代行為策略的學(xué)習(xí)方式,由狀態(tài)、動作、反饋三個元素構(gòu)成。圖1是根據(jù)相關(guān)技術(shù)的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程示意圖,如圖1所示,強化學(xué)習(xí)訓(xùn)練系統(tǒng)可以包含“模型訓(xùn)練→動作決策→模型與應(yīng)用場景通信→場景動作執(zhí)行→應(yīng)用場景與模型通信”這樣一個不斷循環(huán)迭代的過程。這五個步驟的執(zhí)行效率將會直接決定強化學(xué)習(xí)訓(xùn)練的效率。
以即時類游戲為例,即時類游戲是相對于回合制游戲而言的一類游戲,其主要特點在于:無論游戲玩家或者AI控制的虛擬游戲角色是否進行操作,游戲進度都會向前推進。相關(guān)技術(shù)中針對即時類游戲進行強化學(xué)習(xí)訓(xùn)練的方式通常分為以下兩種:
方式一、以訓(xùn)練環(huán)境作為服務(wù)端,以游戲環(huán)境(即上述應(yīng)用場景)作為客戶端,在游戲環(huán)境每執(zhí)行固定幀數(shù)之后,首先主動向訓(xùn)練環(huán)境發(fā)送狀態(tài)信息,其次訓(xùn)練環(huán)境向游戲環(huán)境返回動作決策,然后游戲環(huán)境再依據(jù)動作決策執(zhí)行動作;重復(fù)上述流程。
然而,此種方式的明顯缺陷在于:采用以游戲環(huán)境控制訓(xùn)練進度的方式,首先,從邏輯角度而言存在不合理之處,即任務(wù)需要完成強化學(xué)習(xí)的訓(xùn)練,而控制訓(xùn)練進度的位置并非位于訓(xùn)練環(huán)境而是位于游戲環(huán)境中;然后,強化學(xué)習(xí)訓(xùn)練目前的性能瓶頸通常在模型訓(xùn)練而并非游戲執(zhí)行上,這意味著如果在游戲環(huán)境上控制加速通信頻率從而加速訓(xùn)練,則訓(xùn)練環(huán)境可能會出現(xiàn)訓(xùn)練速度難以匹配通信頻率,進而導(dǎo)致整個系統(tǒng)運轉(zhuǎn)失常。
方式二、以游戲環(huán)境為服務(wù)端,以訓(xùn)練環(huán)境為客戶端,首先訓(xùn)練環(huán)境可以向游戲環(huán)境發(fā)送“查看當前狀態(tài)”的請求,其次游戲環(huán)境將當前游戲狀態(tài)返回至訓(xùn)練環(huán)境,然后訓(xùn)練環(huán)境還可以向游戲環(huán)境發(fā)送“執(zhí)行指定動作”的請求,最后游戲環(huán)境執(zhí)行指定動作;重復(fù)上述流程,并在此期間游戲持續(xù)進行。
然而,此種方式的明顯缺陷在于:采用以訓(xùn)練環(huán)境控制訓(xùn)練進度的方式,其控制精確性較差。在通信過程中,游戲環(huán)境一直保持自主運行;而游戲通常是按照以幀為單位的方式運行,即使訓(xùn)練環(huán)境能夠準確地定時向游戲環(huán)境發(fā)送請求,但是游戲的執(zhí)行間隔可能會受到網(wǎng)絡(luò)的波動、游戲自身幀率波動等多種不良狀況影響進而缺乏穩(wěn)定性,從而影響訓(xùn)練效果。除此之外,該方式中的強化學(xué)習(xí)模型為完成樣本數(shù)據(jù)收集需要至少發(fā)送兩次請求,由此不僅增加系統(tǒng)的操作復(fù)雜程度,而且還會減少系統(tǒng)的并發(fā)負載量。
針對上述的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明至少部分實施例提供了一種通信交互方法、裝置、存儲介質(zhì)、處理器及電子裝置,以至少解決相關(guān)技術(shù)所提供的強化學(xué)習(xí)訓(xùn)練系統(tǒng)的通信過程較為繁瑣,操作復(fù)雜度較高的技術(shù)問題。
根據(jù)本發(fā)明其中一實施例,提供了一種通信交互方法,包括:
基于預(yù)設(shè)通信協(xié)議向服務(wù)端發(fā)送請求消息,其中,請求消息中攜帶的信息至少包括:待執(zhí)行的動作信息集合;接收來自于服務(wù)端的與請求消息對應(yīng)的響應(yīng)消息,其中,響應(yīng)消息中攜帶的信息包括:服務(wù)端在動作信息集合執(zhí)行完畢之后采集到的狀態(tài)信息。
可選地,請求消息中攜帶的信息還包括:進度指示信息,其中,進度指示信息用于指示服務(wù)端將應(yīng)用場景進度從第一時刻推進至第二時刻,并在第二時刻采集狀態(tài)信息,第一時刻早于第二時刻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司,未經(jīng)網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010018581.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 通信裝置、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信方法、通信電路、通信系統(tǒng)
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信終端、通信系統(tǒng)、通信方法以及通信程序
- 通信終端、通信方法、通信裝備和通信系統(tǒng)
- 通信裝置、通信程序、通信方法以及通信系統(tǒng)
- 通信裝置、通信系統(tǒng)、通信方法及計算機可讀取的記錄介質(zhì)





