[發明專利]一種結合知識轉移的強化學習方法及其應用于無人車自主技能的學習方法有效
| 申請號: | 201910017601.6 | 申請日: | 2019-01-09 |
| 公開(公告)號: | CN109740741B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 丁子凡;丁德銳;王永雄;魏國亮;鄂貴 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06N3/096;G06N3/042;G06N3/048;G06N3/084;G06N5/04;B60W40/00 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 陸惠中;王永偉 |
| 地址: | 200093 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 知識 轉移 強化 學習方法 及其 應用于 無人 自主 技能 | ||
1.一種應用于無人車自主技能的學習方法,采用結合知識轉移的強化學習方法進行學習,其特征在于:在無人車模擬器上進行無人車自主技能學習,且源任務和目標任務不同時,對案例庫中的案例進行分布式檢索處理;
無人車模擬器的源任務經驗存儲的案例庫U1中,案例都是擁有兩個屬性的狀態變量(x,x’),而目標任務經驗存儲的案例庫U2中案例擁有四個屬性狀態變量(x,x’,y,y’),為了實現案例的檢索,將相似度計算分如下步驟進行分布式檢索:
(1)當前案例與案例庫U1進行匹配計算相似度:
(2)如果案例庫U1中匹配到滿足相似度閾值的案例,則不進行案例庫U2匹配,如何沒有匹配到滿足相似度閾值的案例,則將當前案例與案例庫U2進行匹配計算相似度:
其中:dist(m,n)為屬性m和屬性n之間的距離;
如果計算的相似度高于給定閾值,表明案例庫有相似案例,然后選擇和執行案例所建議的動作計算啟發式H(st,at);如果計算的相似度都低于給定閾值,表示案例庫無相似案例,則將RL與知識轉移相結合框架下的強化學習算法表現為傳統強化算法進行學習;
其中,所述結合知識轉移的強化學習方法,具體包括以下步驟:
S1、設計BP神經網絡自主任務間映射關系,通過對源任務中的學習經驗進行映射來初始化目標任務,為目標任務設置先驗;
S2、對源任務學習經驗進行案例存儲,并構建線性感知器來學習源域和目標域之間的動作映射關系;
S3、運用基于案例推理機理,在目標任務進行學習時對其在線學習經驗進行存儲來擴充案例庫,并提出漸進遺忘準則對案例庫所存儲經驗中長期不被利用的信息進行清除,以減少匹配檢索時間;
S4、進行相似度計算與案例檢索,并運用所學到的案例庫中的經驗作為啟發式來加速相關但不同任務的學習;
在步驟S1中所述目標任務設置先驗時,運用一維tiling來通過Tile?Coding線性函數逼近器逼近狀態-行為值函數并構建神經網絡學習源任務的函數逼近器結構與目標任務的函數逼近器結構之間的映射,以實現通過源任務中學習經驗來初始化目標任務,網絡訓練過程中源任務和目標任務Tile?Coding中激活的tile權重分別作為網絡輸入和輸出;
所述步驟S2具體包括以下步驟:
S2.1:在案例庫構建過程中,用Q(λ)算法對源任務進行訓練,并通過其所學策略建立一定數量的案例庫,案例庫中每個案例用一個三元組表示:
case=(P,A,Q)
其中:P為問題描述-屬性,A為解決方案-動作,Q為執行解決方案的預期回報,用于反應所采取的解決方案的質量;
S2.2:在動作映射過程中,運用線性、單層、前饋的線性感知器網絡將源任務和目標任務之間的動作建立聯系,在所述線性感知器網絡中,輸入節點對應于目標任務中一組可能動作,輸出節點對應于源任務中一組可能動作;通過在源域和目標域中執行一組隨機動作來更新網絡權重方法,如果兩個動作的觀察結果相似,那么連接這一對動作的權重就會增加;反之,連接的權重會降低。
2.根據權利要求1所述的一種應用于無人車自主技能的學習方法,其特征在于:所述函數公式為:
其中,j=1,......,N.,N為tilings總數,θj(st)為給定狀態st的第j個激活tile的二值特征(1或0),wj為給定狀態st的第j個激活tile的權重;
假設Φ是由狀態st=[ω1,...,ωk,...ωt]激活的塊的集合,其中ωk表示第k個狀態變量,那么Φ可以被劃分為t個子集Φ={Φ1,...,Φk,...Φt},其中Φk是由狀態變量ωk激活的tile的集合,則進一步計算函數公式為:
通過源任務tile?coding線性函數逼近器權重來初始化目標任務中的tile?coding線性函數逼近器權重,實現源任務學習經驗,為目標任務設置先驗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910017601.6/1.html,轉載請聲明來源鉆瓜專利網。





