[發明專利]一種基于深度強化學習的決策方法在審
| 申請號: | 202011120754.2 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112295237A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張昊迪;伍楷舜;陳振浩;高子航;李啟凡 | 申請(專利權)人: | 深圳大學 |
| 主分類號: | A63F13/822 | 分類號: | A63F13/822;A63F13/837;G06N3/04;G06N20/00 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 耿慧敏 |
| 地址: | 518060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 決策 方法 | ||
1.一種基于深度強化學習的決策方法,包括以下步驟:
智能體根據環境信息進行決策,選擇決策后的動作;
智能體將決策后的動作與知識庫對比,并基于知識庫中的設定規則集決定是否用規則集中的隨機動作替換決策后的動作;
在判斷為替換決策后的動作的情況下,在環境中執行替換后的動作,從環境中獲得獎勵和新的環境信息,并將舊環境信息、動作、獎勵和新環境信息組合成經驗信息,存入經驗回放池;
在經驗回放池中隨機選取設定數量的經驗信息,以更新深度強化學習模型,進而指導下一次的迭代。
2.根據權利要求1所述的方法,其中,根據知識庫中的設定規則集決定是否用規則集中的隨機動作替換決策后的動作包括:
判斷知識庫中的規則集是否滿足預定條件;
在滿足設定條件的情況下,以設定的概率用規則集中的一個隨機動作替換決策后的動作。
3.根據權利要求2所述的方法,其中,在滿足設定條件的情況下,以Pt=p0·γt的概率用合規動作集α(R,t)中的一個隨機動作替換決策后的動作,其中p0是初始規則干預概率,t是運行時間,γ是衰減率,R表示規則集,α表示符合規則集R和在時間t下的所有動作。
4.根據權利要求1所述的方法,其中,所述規則集根據決策應用場景以避免災難性決策或以提升學習效率為目標進行設定,用于引導智能體在該應用場景下的動作。
5.根據權利要求1所述的方法,其中,將舊環境信息、動作、獎勵和新環境信息組合成一個經驗信息,存入經驗回放池包括:
在獲得新環境信息后,將一個單位的經驗信息(φ(st),at,rt,φ(st+1))存入經驗回放池D;
如果存入新的經驗信息時,經驗池容量超過設定的閾值N,則以存入時間為參考刪除早期的經驗信息。
6.根據權利要求5所述的方法,其中,在經驗回放池中隨機選取設定數量的經驗信息,以更新深度強化學習模型包括:
在智能體與環境的每輪交互的每一步t中,在經驗回放池中D隨機選取一定數量的經驗信息(φ(sj),aj,rj,φ(sj+1)),并計算各個經驗信息的當前時刻j的價值:
以(yj-Q(φ(sj),aj;θ))2為目標函數做梯度下降來優化神經網絡參數θ;
最后每隔固定的步數C,將目標動作-價值函數Q*同步為動作-價值函數Q;
其中,a’表示j+1時刻的可選動作,aj表示j時刻的動作,sj和sj+1分別表示j時刻和j+1時刻的環境信息,φ表示預處理過程。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其中,該程序被處理器執行時實現根據權利要求1至6中任一項所述方法的步驟。
8.一種計算機設備,包括存儲器和處理器,在所述存儲器上存儲有能夠在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至6中任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳大學,未經深圳大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011120754.2/1.html,轉載請聲明來源鉆瓜專利網。





