[發明專利]一種基于深度強化學習的決策方法在審
| 申請號: | 202011120754.2 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112295237A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張昊迪;伍楷舜;陳振浩;高子航;李啟凡 | 申請(專利權)人: | 深圳大學 |
| 主分類號: | A63F13/822 | 分類號: | A63F13/822;A63F13/837;G06N3/04;G06N20/00 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 耿慧敏 |
| 地址: | 518060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 決策 方法 | ||
本發明公開了一種基于深度強化學習的決策方法。該方法包括:智能體根據環境信息進行決策,選擇決策后的動作;智能體將決策后的動作與知識庫對比,并基于知識庫中的設定規則集決定執行決策后的動作或替換決策后的動作;智能體將決策后的動作或替換后的動作在環境中執行,從環境中獲得獎勵和新的環境信息,并將舊環境信息、動作、獎勵和新環境信息組合成經驗信息,存入經驗回放池;在經驗回放池中隨機選取設定數量的經驗信息,以更新深度強化學習模型,進而指導下一次的迭代。利用本發明,能夠縮短訓練時間并避免作出災難性決策,可廣泛應用于動態決策領域。
技術領域
本發明涉及人工智能領域,更具體地,涉及一種基于深度強化學習的決策方法。
背景技術
強化學習是機器學習中的一個領域,用于描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。
目前,深度強化學習已成功應用于多種動態決策領域,尤其是那些具有很大狀態空間的領域。然而,深度強化學習也面臨著一些問題,首先,它的訓練過程可能非常緩慢并且需要大量資源,最終的系統通常很脆弱,結果難以解釋,并且在訓練開始很長一段時間表現很差。此外,對于機器人技術和關鍵決策支持系統中的應用,利用深度強化學習甚至可能作出災難性的決策,從而導致成本巨大的后果。
因此,需要對現有技術進行改進,以獲得效率更高、更安全的決策方法。
發明內容
本發明的目的是克服上述現有技術的缺陷,提供一種基于深度強化學習的決策方法,是將高抽象層級規則與深度強化學習相結合進行動態決策的新技術方案。
本發明提供一種基于深度強化學習的決策方法。該方法包括以下步驟:
智能體根據環境信息進行決策,選擇決策后的動作;
智能體將決策后的動作與知識庫對比,并基于知識庫中的設定規則集決定是否用規則集中的隨機動作替換決策后的動作;
在判斷為替換決策后的動作的情況下,在環境中執行替換后的動作,從環境中獲得獎勵和新的環境信息,并將舊環境信息、動作、獎勵和新環境信息組合成經驗信息,存入經驗回放池;
在經驗回放池中隨機選取設定數量的經驗信息,以更新深度強化學習模型,進而指導下一次的迭代。
在一個實施例中,根據知識庫中的設定規則集決定是否用規則集中的隨機動作替換決策后的動作包括:
判斷知識庫中的規則集是否滿足預定條件;
在滿足設定條件的情況下,以設定的概率用規則集中的一個隨機動作替換決策后的動作。
在一個實施例中,在滿足設定條件的情況下,以Pt=p0·γt的概率用合規動作集α(R,t)中的一個隨機動作替換決策后的動作,其中p0是初始規則干預概率,t是運行時間,γ是衰減率,R表示規則集,α表示符合規則集R和在時間t下的所有動作。
在一個實施例中,所述規則集根據決策應用場景以避免災難性決策或以提升學習效率為目標進行設定,用于引導智能體在該應用場景下的動作。
在一個實施例中,將舊環境信息、動作、獎勵和新環境信息組合成一個經驗信息,存入經驗回放池包括:
在獲得新環境信息后,將一個單位的經驗信息(φ(st),at,rt,φ(st+1))存入經驗回放池D;
如果存入新的經驗信息時,經驗池容量超過設定的閾值N,則以存入時間為參考刪除早期的經驗信息。
在一個實施例中,在經驗回放池中隨機選取設定數量的經驗信息,以更新深度強化學習模型包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳大學,未經深圳大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011120754.2/2.html,轉載請聲明來源鉆瓜專利網。





