[發明專利]一種基于模型強化學習的智能泊車方法有效
| 申請號: | 202011336997.X | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112356830B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 陳慧;宋紹禹;孫宏偉;劉美岑 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | B60W30/06 | 分類號: | B60W30/06;B60W50/00 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 宣慧蘭 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 強化 學習 智能 泊車 方法 | ||
1.一種基于模型強化學習的智能泊車方法,其特征在于,使用蒙特卡羅樹搜索、車輛運動學模型、動作分類網絡和狀態值擬合網絡,具體包括以下步驟:
S1.所述蒙特卡羅樹搜索結合所述動作分類網絡和車輛運動學模型獲取泊車數據預訓練模型;
S2.根據泊車預訓練模型生成的泊車數據訓練所述狀態值擬合網絡;
S3.訓練完成的狀態值擬合網絡與蒙特卡羅樹搜索、動作分類網絡相結合,構成在線駕駛策略模型;
S4.所述泊車在線駕駛策略模型以滾動時域方式,接收庫位和車輛運動信息,在每個時間間隔產生一個控制指令,并發送至車輛運動控制模塊,由車輛運動控制模塊控制目標車輛完成泊車;
所述泊車方法的制定過程中使用馬爾可夫決策過程,所述馬爾可夫決策的具體過程為優化多個步驟的累積回報,獲得最優策略作為泊車在線駕駛策略模型;
所述多個步驟的累積回報的計算公式具體如下:
其中,K為步驟數量,t為當前時刻,r為獎勵函數,γ為折扣因子,范圍為(0,1],sk和ak分別是k時刻的泊車狀態和泊車動作;
所述最優策略的計算公式如下所示:
其中,*表示最優,Vπ(s)為狀態值函數,π為用于泊車動作選擇的駕駛策略模型;
所述狀態值函數的計算公式具體如下:
Vπ(s)=Eπ[R(τ)|St=s]
其中,E為求期望,Vπ(s)為狀態的期望回報,S為狀態。
2.根據權利要求1所述的一種基于模型強化學習的智能泊車方法,其特征在于,所述蒙特卡羅樹搜索設有記憶鏈,通過葉節點的多步仿真獲得狀態值。
3.根據權利要求1所述的一種基于模型強化學習的智能泊車方法,其特征在于,所述動作分類網絡的輸入為泊車狀態,輸出為泊車動作概率分布,所述泊車動作概率分布根據人工神經網絡計算得到。
4.根據權利要求1所述的一種基于模型強化學習的智能泊車方法,其特征在于,所述最優策略的動作價值與泊車狀態-動作值函數的關聯關系為:
其中,A為動作,為泊車狀態-動作的值函數;
所述泊車指令的生成過程中設有獎勵函數,所述獎勵函數具體如下所示:
r(k)=Ry+Rθ+Ra+Rsafe
其中:
Rsafe={0,Csafe}
Ry和Rθ是具有有界函數值的sigmoid型函數S曲線,c1、c2和c3是比例因子,Cy、Cθ和Csafe是獎勵項權重,數值為常數;
所述泊車狀態的狀態轉移函數具體如下所示:
x’=v(t)cosθ(t)
y’=v(t)sinθ(t)
其中,v(t)為t時刻的車速,l為軸距,x’為后軸中心x方向變化率,y’為后軸中心y方向變化率,θ’為轉向角變化率,為前輪轉角。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011336997.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種硬質合金頂錘及其制備方法與應用
- 下一篇:一種鑄件加工用清理拋光裝置





