[發(fā)明專利]一種基于Deep Q-Network改進(jìn)的俄羅斯方塊智能Agent學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011118911.6 | 申請(qǐng)日: | 2020-10-19 |
| 公開(公告)號(hào): | CN112206538A | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 曹寬;唐存琛;畢翔 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | A63F13/67 | 分類號(hào): | A63F13/67;A63F13/46;G06N3/04 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 deep network 改進(jìn) 俄羅斯方塊 智能 agent 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于Deep Q?Network改進(jìn)的俄羅斯方塊智能Agent學(xué)習(xí)方法,包括以下步驟:1)獲取當(dāng)前游戲狀態(tài)下方塊的統(tǒng)計(jì)特征,根據(jù)游戲畫面采集游戲畫面每幀的統(tǒng)計(jì)特征序列;2)通過深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行俄羅斯方塊智能Agent Q值的估計(jì),所述Q值為俄羅斯方塊agent在采取某個(gè)action后的表現(xiàn)對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù);3)在Q值估計(jì)中,使用均方誤差定義目標(biāo)函數(shù);4)計(jì)算參數(shù)W關(guān)于損失函數(shù)的梯度:5)計(jì)算出上面的梯度后,使用SGD算法來更新參數(shù),從而得到最優(yōu)的Q值,即獲得每次交互選取使得Q值最大的動(dòng)作a。本發(fā)明方法利用預(yù)定義的方塊統(tǒng)計(jì)特征改進(jìn)了DQN網(wǎng)絡(luò)訓(xùn)練Agent玩俄羅斯方塊的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù),尤其涉及一種基于Deep Q-Network改進(jìn)的俄羅斯方塊智能Agent學(xué)習(xí)方法。
背景技術(shù)
人工智能(Artificial Intelligence,AI)它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它旨在了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究主要是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、包括自然語言處理、計(jì)算機(jī)視覺、感知、認(rèn)知與決策等。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)任務(wù)通常使用馬爾可夫決策過程(Markov Decision Process,MDP)來描述,具體而言:機(jī)器處在一個(gè)環(huán)境中,每個(gè)狀態(tài)為機(jī)器對(duì)當(dāng)前環(huán)境的感知;機(jī)器只能通過動(dòng)作來影響環(huán)境,當(dāng)機(jī)器執(zhí)行一個(gè)動(dòng)作后,會(huì)使得環(huán)境按某種概率轉(zhuǎn)移到另一個(gè)狀態(tài);同時(shí),環(huán)境會(huì)根據(jù)潛在的獎(jiǎng)賞函數(shù)反饋給機(jī)器一個(gè)獎(jiǎng)賞。綜合而言,強(qiáng)化學(xué)習(xí)主要包含四個(gè)要素:狀態(tài)、動(dòng)作、轉(zhuǎn)移概率以及獎(jiǎng)賞函數(shù)。智能體agent在進(jìn)行某個(gè)任務(wù)時(shí),首先與environment進(jìn)行交互,產(chǎn)生新的state,同時(shí)環(huán)境給出reward,如此循環(huán)下去,agent和environment不斷交互產(chǎn)生更多新的數(shù)據(jù)。強(qiáng)化學(xué)習(xí)算法就是通過一系列動(dòng)作策略與環(huán)境交互,產(chǎn)生新的數(shù)據(jù),再利用新的數(shù)據(jù)去修改自身的動(dòng)作策略,經(jīng)過數(shù)次迭代后,agent就會(huì)學(xué)習(xí)到完成任務(wù)所需要的動(dòng)作策略。
近年來,深度學(xué)習(xí)快速崛起,已經(jīng)在圖像識(shí)別、語音識(shí)別、推薦系統(tǒng)等各方面取得了突出的進(jìn)步,其通過多層網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù),將特征一層層抽象,形成易于表述和區(qū)分的高層特征,深度強(qiáng)化學(xué)習(xí)的發(fā)展得益于深度學(xué)習(xí)的快速發(fā)展,與傳統(tǒng)強(qiáng)化學(xué)習(xí)的差別是估值函數(shù)變成了深度神經(jīng)網(wǎng)絡(luò),這一改變使得對(duì)特征的提取更為豐富準(zhǔn)確,也讓端到端學(xué)習(xí)變成了可能。
俄羅斯方塊是一款經(jīng)典的益智型游戲,如何在游戲中實(shí)現(xiàn)智能旋轉(zhuǎn)、下落并且擺放到合適的位置上,是人工智能領(lǐng)域的一個(gè)熱門研究課題,國外很多學(xué)者已經(jīng)做了相關(guān)研究,其中比較有名的是Pierre Dellacherie算法,但在我國,相關(guān)研究較少。
正如許多問題可以利用強(qiáng)化學(xué)習(xí)來解決,比如無人機(jī)飛行,一個(gè)連續(xù)的問題,需要時(shí)時(shí)刻刻來引導(dǎo)它作出決策,對(duì)它每次一動(dòng)作給予相應(yīng)的回報(bào),表現(xiàn)較差的動(dòng)作用需要用負(fù)回報(bào)來糾正,合理的動(dòng)作用正回報(bào)來鼓勵(lì),智能體通過學(xué)習(xí)從而改進(jìn)自身的行為策略。那么是否能通過強(qiáng)化學(xué)習(xí)來訓(xùn)練一個(gè)智能Agent來玩俄羅斯方塊呢?本發(fā)明就是結(jié)合Deep Q-Network(DQN)和預(yù)定義方塊的統(tǒng)計(jì)特征實(shí)現(xiàn)了一種穩(wěn)健、自學(xué)習(xí)式的俄羅斯方塊智能Agent學(xué)習(xí)方法。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于用傳統(tǒng)的DQN算法實(shí)現(xiàn)的俄羅斯方塊AI表現(xiàn)較差,,本發(fā)明結(jié)合DQN和預(yù)定義的統(tǒng)計(jì)特征設(shè)計(jì)了一種新的網(wǎng)絡(luò)結(jié)構(gòu),從而增強(qiáng)了DQN算法在俄羅斯方塊游戲AI上的游戲性能。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是:一種基于Deep Q-Network改進(jìn)的俄羅斯方塊智能Agent學(xué)習(xí)方法,包括以下步驟:
(1)獲取當(dāng)前游戲狀態(tài)下方塊的統(tǒng)計(jì)特征,根據(jù)游戲畫面采集游戲畫面每幀的統(tǒng)計(jì)特征序列,其中,統(tǒng)計(jì)特征序列包括:空洞數(shù)、板塊高度、消行數(shù)、列井深和、顛簸、列高和;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011118911.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
A63F 紙牌、棋盤或輪盤賭游戲;利用小型運(yùn)動(dòng)物體的室內(nèi)游戲;其他類目不包含的游戲
A63F13-00 使用二維或多維電子顯示器
A63F13-02 .附件
A63F13-08 .結(jié)構(gòu)零件或布置,例如其他類目不包括的殼體、導(dǎo)線、連接件、操縱臺(tái)
A63F13-10 .游戲過程的控制,例如開始、進(jìn)行、結(jié)束
A63F13-12 .涉及若干游戲裝置之間的相互作用,例如傳送和分配系統(tǒng)
A63F13-04 ..用于命中顯示器上的特殊區(qū)域,如具有光電探測(cè)裝置的
- 一種基于深N阱結(jié)構(gòu)的垮芯片保護(hù)環(huán)電路
- 基于DeepLearning的領(lǐng)域概念抽取方法
- 用于確定地下地層的孔隙度和孔隙類型的多深度研究核磁共振測(cè)井
- 一種信息推薦的方法、裝置及設(shè)備
- 用于重組蛋白表達(dá)的融合標(biāo)簽
- 一種基于Deep DPCA-SVM的故障檢測(cè)方法
- 魚鉤(DEEP)
- 一種用于加速Deep Q-Network算法的硬件架構(gòu)及其設(shè)計(jì)空間探索方法
- 實(shí)時(shí)跌倒檢測(cè)模型訓(xùn)練方法、實(shí)時(shí)跌倒檢測(cè)方法及裝置
- 沙發(fā)(3206 Deep)
- 一種實(shí)現(xiàn)移動(dòng)性管理的系統(tǒng)、裝置和方法
- 一種自動(dòng)檢測(cè)OSPF多路訪問網(wǎng)絡(luò)上路由器鏈路中斷的方法
- 中繼通信的數(shù)據(jù)傳輸方法和裝置
- NFV管理編排的方法和裝置
- 用于網(wǎng)絡(luò)功能虛擬化資源管理的系統(tǒng)和方法
- UE、MME、UE的通信控制方法以及MME的通信控制方法
- 一種基于refinement?network深度學(xué)習(xí)模型的單透鏡全局圖像復(fù)原方法
- 一種BIOS下的Sharelink Network與BMC交互功能驗(yàn)證方法及裝置
- 一種物聯(lián)網(wǎng)空口協(xié)議層的數(shù)據(jù)處理方法
- 一種用于加速Deep Q-Network算法的硬件架構(gòu)及其設(shè)計(jì)空間探索方法





