[發明專利]一種基于模型強化學習的智能泊車方法有效
| 申請號: | 202011336997.X | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112356830B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 陳慧;宋紹禹;孫宏偉;劉美岑 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | B60W30/06 | 分類號: | B60W30/06;B60W50/00 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 宣慧蘭 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 強化 學習 智能 泊車 方法 | ||
本發明涉及一種基于模型強化學習的智能泊車方法,使用蒙特卡羅樹搜索、車輛運動學模型、動作分類網絡和狀態值擬合網絡,具體包括以下步驟:S1.蒙特卡羅樹搜索結合動作分類網絡和車輛運動學模型獲取泊車數據預訓練模型;S2.根據泊車預訓練模型生成的泊車數據訓練狀態值擬合網絡;S3.訓練完成的狀態值擬合網絡與蒙特卡羅樹搜索、動作分類網絡相結合,構成在線駕駛策略模型;S4.泊車在線駕駛策略模型以滾動時域方式,接收庫位和車輛運動信息,在每個時間間隔產生一個控制指令,并發送至車輛運動控制模塊來控制目標車輛完成泊車。與現有技術相比,本發明具有更好的最終泊車航向角和成功率、減少車輛模型的精確度對最終泊車效果的影響等優點。
技術領域
本發明涉及自動泊車技術領域,尤其是涉及一種基于模型強化學習的智能泊車方法。
背景技術
自動泊車系統(APS)是重要的智能輔助駕駛系統,因為它們具有減少在狹窄城市中發生事故的巨大潛力,并增加了泊車位的使用率。對于所有APS平臺,所述智能車輛必須由車載傳感器系統檢測庫位并生成其運動的泊車空間,如環視相機(AVM)和激光雷達(LIDAR)。APS的常規運動規劃方法是路徑速度分解方法,將泊車任務分解為運動學子問題和動力學子問題,分別通過路徑規劃和路徑跟蹤方法解決,但是不能靈活地處理實時感知信息,同時不能使用歷史泊車數據來提高其自身的能力。
目前已有數據驅動的強化學習(RL)的APS來解決上述問題。強化學習包括基于模型的方法和無模型方法。無模型的RL已為APS取得了可接受的控制性能,通過直接嘗試操作來獲得最大的累積獎勵,從而學會倒車。但是需要進行多次真正的交互才能應用。數據效率低下使無模型的RL變得不切實際,并限制了其在泊車場景中的應用,因為在泊車場景中,車輛需要快速掌握駕駛技能。基于模型的強化學習用于實現多目標優化并擺脫人類經驗,但是由于動作的回報是通過在線仿真結果確定的,因此該方法在很大程度上依賴于車輛模型的準確性。為了獲得和驗證車輛模型,需要進行大量試驗。此外,該方法不能利用有限的泊車數據對未知模型的被控對象進行連續學習,以進一步提高泊車能力。數據效率在強化學習中是指獲得穩定性能所需的數據數量。在保持持續學習能力的同時,很少有研究聚焦基于RL的APS尤其是基于模型的RL的APS數據效率問題。關于基于模型的RL技術,AlphaGo利用圍棋游戲中的基本規則和函數逼近來獲得狀態值函數,并通過自我博弈擊敗了人類玩家,激發了和狀態值函數的結合,克服基于模型的RL的自動泊車系統的缺點。
通過擬合狀態值函數來實現連續學習,比如將近似修改策略迭代(AMPI)用來利用狀態轉換函數來利用車輛運動學的先驗知識來構造狀態值函數,從而顯示出高數據效率。蒙特卡羅樹搜索(MCTS)在泊車設置中,會在試驗結束時給予獎勵,比提供即時獎勵更簡單,更客觀,可以通過限制在搜索過程中使用模擬來減少對車輛模型準確性的要求。MCTS使用狀態值的估計和候選動作的概率分布來實現探索與開發之間的平衡。除了用于學習具有高獎勵的動作的概率分布的人工神經網絡(ANN),另一個值ANN用于預測狀態值。ANN的更新方向可以通過添加加權系數和泊車軌跡的回報值來增強。
發明內容
本發明的目的就是為了克服上述現有技術存在的過度依賴于車輛模型的準確性、信息處理不夠靈活、不能有效利用現有數據的缺陷而提供一種基于模型強化學習的智能泊車方法。
本發明的目的可以通過以下技術方案來實現:
一種基于模型強化學習的智能泊車方法,使用蒙特卡羅樹搜索、動作分類網絡和狀態值擬合網絡,具體包括以下步驟:
S1.所述蒙特卡羅樹搜索結合所述動作分類網絡和車輛運動學模型獲取泊車數據預訓練模型;
S2.根據泊車預訓練模型生成的泊車數據訓練所述狀態值擬合網絡;
S3.訓練完成的狀態值擬合網絡與蒙特卡羅樹搜索、動作分類網絡相結合,構成在線駕駛策略模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011336997.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種硬質合金頂錘及其制備方法與應用
- 下一篇:一種鑄件加工用清理拋光裝置





