[發明專利]無模型深度增強學習探索方法及裝置有效
| 申請號: | 201711205687.2 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107832836B | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 季向陽;張子函;張宏昌 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 深度 增強 學習 探索 方法 裝置 | ||
本公開涉及一種無模型深度增強學習探索方法及裝置,所述方法包括:根據樣本獲取特征值;將所述特征值輸入深度強化學習模型進行處理,得到動作價值;將所述特征值輸入計數模型得到動作計數值;根據所述動作價值和所述動作計數值確定決策動作。通過選擇不同執行次數的動作,在深度強化學習的探索過程中,更加全面的得到各動作的環境回報值,進而提高探索效率。
技術領域
本公開涉及機器學習技術領域,尤其涉及一種無模型深度增強學習探索方法及裝置。
背景技術
深度增強學習,Deep Reinforcement Learning是將深度學習與增強學習結合起來,從而實現從Perception感知到Action動作的端對端學習的一種全新的算法。簡單的說,就是和人類一樣,輸入感知信息比如視覺,然后通過深度神經網絡,直接輸出動作,中間沒有hand-crafted人為工作。深度增強學習具備使機器人實現完全自主的學習一種甚至多種技能的潛力。增強學習是解決序貫決策問題的一個方法。近年來,深度增強學習利用神經網絡作為算法的估計子,在基于圖像輸入的任務中取得了一定的成果。在進行動作決策時,智能代理需要根據歷史經驗決定執行某個動作,因此,利用神經網絡進行深度增強學習問題的核心是如何壓縮量級較大的歷史樣本,以及在神經網絡的訓練過程中,如何得出更加符合實際應用場景的訓練結果。
發明內容
有鑒于此,本公開提出了一種無模型深度增強學習探索方法及裝置,用以解決深度增強學習探索方法如何獲取更加符合實際應用場景的訓練結果的問題。
根據本公開的一方面,提供了一種無模型深度增強學習探索方法,所述方法包括:
根據樣本獲取特征值;
將所述特征值輸入深度強化學習模型進行處理,得到動作價值;
將所述特征值輸入計數模型得到動作計數值;
根據所述動作價值和所述動作計數值確定決策動作。
在一種可能的實現方式中,所述方法還包括:
執行所述決策動作;
獲取環境返回的回報值;
根據所述回報值和所述決策動作,確定誤差值;
根據所述誤差值,利用反向傳播算法,調整所述深度強化學習模型、所述計數模型的參數。
在一種可能的實現方式中,所述方法還包括:將所述特征值輸入輔助決策模型進行處理,得到輔助動作價值;
根據所述動作價值和所述動作計數值確定決策動作,還包括:根據所述動作價值、所述動作計數值和所述輔助動作價值,確定決策動作。
在一種可能的實現方式中,將所述特征值輸入輔助決策模型進行處理,得到輔助動作價值,包括:
所述輔助決策模型根據所述特征值和隨機回報值,確定輔助動作價值。
在一種可能的實現方式中,
根據樣本獲取特征值,包括:
利用多個卷積核對所述樣本進行卷積處理,得到多個卷積特征;
將得到的多個卷積特征進行拼接,獲取所述特征值。
在一種可能的實現方式中,所述樣本包括:環境的第一狀態和動作,所述第一狀態包括所述動作執行前的狀態;
將所述特征值輸入計數模型得到動作計數值,包括:
計數模型根據輸入的特征值,提取所述樣本的第一狀態和動作;
將所述樣本的第一狀態和動作進行對應,確定狀態動作對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711205687.2/2.html,轉載請聲明來源鉆瓜專利網。





