[發明專利]一種從演示和人類評估反饋進行交互強化學習的方法在審
| 申請號: | 201910281347.0 | 申請日: | 2019-04-09 |
| 公開(公告)號: | CN110070185A | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 李光亮;何波;馮晨;林金瑩;張期磊 | 申請(專利權)人: | 中國海洋大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 馬金華 |
| 地址: | 266100 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 演示 反饋 智能體 評估 學習 獎勵 | ||
1.一種從演示和人類評估反饋進行交互強化學習的方法,其特征在于:結合逆強化學習IRL和TAMER框架形成IRL-TAMER。
2.按照權利要求1所述一種從演示和人類評估反饋進行交互強化學習的方法,其特征在于:所述IRL-TAMER由兩個順序運行的算法組成:
(1)IRL從人類訓練者提供的示范中學習獎勵函數:其中,w=(ω0,...ωm-1)T是獎勵函數R的基函數權重向量,m-1是參數的總數,φ(s,a)是一個基于狀態的基函數向量;
(2)TAMER通過從人類獎勵中學習的預測獎勵模型學習值函數:其中,是根據智能體的動作反饋的人類獎勵函數,T(s,a,s′)是轉換函數,Q(s,a)是在某一時刻的s狀態下采取動作a能夠獲得獎勵的期望,s和a為當前的狀態和動作,s′與a′為下一步的狀態和動作。
3.按照權利要求1所述一種從演示和人類評估反饋進行交互強化學習的方法,其特征在于:所述IRL-TAMER允許人類訓練者首先提供示范,由狀態動作對序列{(s0,a0),...,(sn,an)}組成,從示范中通過IRL學習到的獎勵函數被當作TAMER中獎勵函數的初始值使用,然后訓練者能夠通過人類獎勵微調智能體的行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國海洋大學,未經中國海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910281347.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:融合樣本損失及優化速度約束的數據采樣方法
- 下一篇:通過二維符號進行機器學習





