[發明專利]一種基于魯棒模仿學習的模擬器建模方法有效
| 申請號: | 202110654854.1 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113239634B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 楊正宇;張偉楠;丁寧;俞勇 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N20/00 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模仿 學習 模擬器 建模 方法 | ||
本發明公開了一種基于魯棒模仿學習的模擬器建模方法,涉及強化學習領域,包括以下步驟:從策略分布中采樣出訓練策略集合Π和測試策略集合Π′;令訓練策略集合Π的策略π與真實環境p*進行交互,以獲得真實數據集合Bπ={(s,a,s′)~(πp*);每k步進行一次策略篩選;令策略π與學習到的模擬器進行交互,并計算價值差異VD,以衡量模擬器在策略π下的表現;選取其中表現最差的∈%策略構成集合Πc,其對應的數據集記為Bc;從Bc中采樣數據,并利用Πc中的策略與當前模擬器交互以收集數據Dp,用以優化生成對抗模仿學習中的判別器Dω,以及用以優化生成對抗模仿學習中的生成器重復上述步驟直到重復次數達到事先設定的閾值。該方法使得學到的模型具有更強的魯棒性。
技術領域
本發明涉及強化學習領域,尤其涉及一種基于魯棒模仿學習的模擬器建模方法。
背景技術
模擬器建模是強化學習中的一個重要方向,其指的是對環境的動態轉移進行建模。目前而言,模擬器建模的方法主要可以分為基于規則的方法和基于學習的方法。針對于復雜的真實場景,基于規則的方法難以正確并且全面地提取出該環境的所有規則,故而使得這些方法在很多場景下會得到糟糕的結果。隨著可用數據的增多,近些年來在模擬器建模場景中,基于學習的方法得到了更多的關注。然而目前所有基于學習的方法都沒考慮學習到的模擬器的魯棒性,故而其學得的模擬器可能會在很多情形下給出極不準確的仿真結果。
近期來,專家和學者主要聚焦于如何利用機器學習的方法來建模模擬器,具體的,目前主要利用模仿學習的方式來對模擬器進行建模。Guanjie Zheng等在InternationalConference on Data Engineering(數據工程國際會議)會議(2020年36屆)上發表了“Learning to simulate vehicle trajectories from demonstrations”(《通過演示學習模擬車輛的軌跡》),該文章提出利用生成對抗模擬學習來從已經收集到的車輛行駛數據中學習車輛的行為,即學習一個模擬器去模擬真實車輛的行為。
Jingcheng Shi等在AAAI Conference on Artificial Intelligence(美國人工智能協會人工智能會議)會議(2019年33屆)上發表了“Virtual-Taobao:VirtualizingReal-World Online Retail Environment for Reinforcement Learning”(《虛擬淘寶:虛擬現實世界的在線零售環境以進行強化學習》)。該方法將用戶和平臺的交互建模為一個多智能體系統,并利用多智能體版本的生成對抗模擬學習同時學習用戶和平臺的行為。考慮到已收集的數據未必包含了全部信息,Wenjie Shang等在ACM Knowledge Discovery andData Mining(計算機協會知識發現與數據挖掘)會議(2019年25屆)上發表了“EnvironmentReconstruction with Hidden Confounders for Reinforcement Learning basedRecommendation”(《基于強化學習的推薦下的含有隱藏混雜因素的環境重建》),該方法仍舊將用戶和平臺的交互建模為一個多智能體系統,同時考慮到數據中未包含的一些隱藏信息,又在多智能體系統中引入了一個新的角色以建模這些隱藏信息,進而同時學習這三者的行為。
對國內外相關研究可得出以下結論:目前在模擬器建模的領域中,所有基于學習的方法都未將學得的模擬器的魯棒性考慮在內。然而一個好的模擬器,其應該是能夠為不同的策略提供穩定的仿真,即使在各種邊緣案例中也能提供不錯的仿真效果。
因此,本領域的技術人員致力于開發一種基于魯棒模仿學習的模擬器建模方法,以實現穩定的仿真。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654854.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:室內管路異常探測系統及方法
- 下一篇:適用于套袋機的封口裝置





