[發明專利]一種基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法在審
| 申請號: | 202011118911.6 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112206538A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 曹寬;唐存琛;畢翔 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;A63F13/46;G06N3/04 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 deep network 改進 俄羅斯方塊 智能 agent 學習方法 | ||
1.一種基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,包括以下步驟:
1)獲取當前游戲狀態下方塊的統計特征,根據游戲畫面采集游戲畫面每幀的統計特征序列,其中,統計特征序列包括:空洞數、板塊高度、消行數、列井深和、顛簸、列高和;
2)通過深度神經網絡來進行俄羅斯方塊智能Agent Q值的估計,所述Q值為俄羅斯方塊agent在采取某個action后的表現對應的獎勵分數,
具體如下:
所述深度神經網絡的結構為:用于輸入方塊統計特征序列的Dense全連接層與DQN網絡的拼接;
Q值的估計表示為:
Q(s,a,w)≈Qπ(s,a)
其中,s代表當前的環境,由游戲畫面最近4幀(4*10*20)的灰度圖輸入到2個卷積層然后展平成一維向量,和游戲畫面最近4幀的方塊統計特征序列經過Dense全連接層編碼后做concat拼接而來;最后接一個Dense層輸出動作a與s交互時對應的Q值;a代表從潛在action空間中選取的當前動作,潛在action空間包括旋轉、左移、右移和下降;
w為神經網絡的參數;
3)在Q值估計中,使用均方誤差來定義目標函數,也就是網絡的損失函數;
4)計算參數w關于損失函數的梯度:
5)根據計算出的梯度,使用SGD算法來更新參數w,從而得到最優的Q值,即獲得每次交互選取使得Q值最大的動作a。
2.根據權利要求1所述的基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,所述步驟1)中統計特征具體如下:
空洞數:堆疊完成的方塊組成的聚集體中存在的空洞個數;
板塊高度:某方塊放置后,該方塊距離游戲面板底部的高度;
列井深和:每列中井深度之和,井指兩邊都由方塊填充的空列;
顛簸:每一列高度差的總和;
列高和:每一列高度的總和;
消行數:消除的總行數。
3.根據權利要求1所述的基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,所述步驟3)中損失函數如下:
L(w)=E[(r+γ·maxa′Q(s′,a′,w)-Q(s,a,w))2]
經驗回放每次存一個四元組到緩存中,對(s,a,r,s’)來說,下一個有了狀態s’后,新的四元組變為(s’,a’,r’,s”)。這個新的四元組中的s’,a’以及本次獎勵r,作為目標值,即r+r*maxQ(s’,a’,w)來和前一次狀態的Q(s,a,w)求均方誤差,并對從經驗回放區中取出的m個均方誤差求數學期望,以此作為網絡的損失函數,網絡優化目標即將該期望最小化;
式中,s′、a′表示下一個狀態和動作,L(w)為神經網絡的損失函數,E()表示一個批量中目標Q值和估計Q值均方誤差函數的數學期望。r為在狀態s‘下,采取動作a’,時得到的獎勵,γ為超參數,表示衰減因子。
4.根據權利要求3所述的基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,所述步驟3)中,獎勵r根據游戲表現的消行數確定,具體如下:
消1行得10分;消2行得20分;消3行得100分;消4行得500分;沒有發生消行得0分;游戲結束得-1000分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011118911.6/1.html,轉載請聲明來源鉆瓜專利網。





