[發明專利]一種基于模糊深度強化學習的自動泊車方法有效
| 申請號: | 201910810427.0 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110525428B | 公開(公告)日: | 2020-09-04 |
| 發明(設計)人: | 黃鶴;張潤;張炳力;郭偉鋒;沈干;于海濤;姜平 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F17/10 | 分類號: | G06F17/10;B60W30/06;B60W50/00;G06F30/15;G06N3/08;G06F30/27 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 深度 強化 學習 自動 泊車 方法 | ||
1.一種基于模糊深度強化學習的自動泊車方法,其特征在于,包括以下步驟;
步驟1:建立車輛動力學模型以及泊車環境模型;
步驟2:收集真實場景中基于駕駛員經驗的泊車數據作為原始數據,所述泊車數據為車輛的狀態信息與車輛控制指令;
步驟3:定義車輛控制指令集a={a0,a1,...,at,...,am},a0代表車輛初始時刻的控制指令,at代表車輛t時刻的控制指令,并有at={vt,δt};vt代表車輛t時刻的速度,δt代表車輛t時刻的方向盤角度,定義狀態信息集s={s0,s1,...,st,...,sm},s0代表車輛初始時刻的狀態,st代表車輛t時刻執行t-1時刻的控制指令at-1后的狀態,并有st={xt,yt,εt},xt代表車輛t時刻在大地坐標系下的橫坐標,yt代表車輛t時刻在大地坐標系下的縱坐標,εt代表t時刻的航向角;t=1,2,…,m;
步驟4:定義并初始化t=1;更新系數τ,樣本數m,目標網絡更新頻率T,最大迭代次數C;
步驟5:構建模糊動作網絡,包括:輸入層、隱藏層、輸出層;
所述輸入層包含一個神經元,用于輸入車輛t時刻狀態st;
所述隱藏層包括:模糊化層、模糊規則層和模糊決策層;
所述輸入層將所述車輛t時刻狀態st傳遞給所述模糊化層;由所述模糊化層中的隸屬度函數進行計算,得到車輛t時刻狀態st對應的隸屬度,并將所述隸屬度輸入模糊規則層;
利用所述原始數據建立所述模糊規則層中的動作模糊規則,每條動作模糊規則對應輸出一個控制指令;所述模糊規則層根據車輛t時刻狀態st對應的隸屬度計算每條動作模糊規則的適用度后傳遞給模糊決策層;
所述模糊決策層選出最大適用度所對應的動作模糊規則并輸出相應的控制指令at,max1;
所述輸出層包含一個神經元,并根據所接收到的模糊規則層輸出的控制指令at,max1,利用式(1)得到車輛t時刻的控制指令at并輸出;
at=at,max1θmax1 (1)
式(1)中,θmax1表示第max1條動作模糊規則所對應的網絡參數;
步驟6:建立樣本池集合D;
步驟6.1:在所述模糊動作網絡基于車輛t時刻的狀態st得到車輛t時刻的控制指令at;
步驟6.2:所述車輛動力學模型執行t時刻的行控制指令at并得到t+1時刻的狀態st+1以及t時刻的獎勵Rt;將所述t時刻的狀態st、控制指令at和獎勵Rt作為t時刻的樣本{st,at,Rt,st+1}并儲存至樣本池集合D中;
步驟7、構建與所述模糊動作網絡結構相同的目標模糊動作網絡,并按照一定的周期更新所述目標模糊動作網絡中的網絡參數,得到更新后的網絡參數θ′max1,并相應輸出控制指令a′t;以t時刻的樣本{st,at,Rt,st+1}中的t+1時刻的狀態st+1作為網絡輸入,輸出t+1時刻的控制指令a′t+1;
步驟8:搭建目標模糊評價網絡,包括輸入層、隱藏層、輸出層;
所述目標模糊評價網絡的輸入層包含2個神經元;
所述目標模糊評價網絡的隱藏層包括:模糊化層,模糊規則層和模糊決策層;
所述目標模糊評價網絡的輸出層包含1個神經元;
以所述樣本池集合D中車輛t+1時刻的狀態st+1以及所述目標模糊動作網絡輸出的控制指令at+1′作為所述目標模糊評價網絡的輸入并由所述輸入層傳遞給所述模糊化層;由所述模糊化層中的隸屬度函數進行計算,得到車輛t時刻狀態st對應的隸屬度,并傳遞到模糊規則層;
利用所述原始數據建立所述目標模糊評價網絡的模糊規則層中的評價模糊規則,每條目標模糊評價網絡的評價模糊規則對應輸出一個折扣因子;
所述目標模糊評價網絡的模糊規則層根據車輛t時刻狀態對應的隸屬度計算每條評價模糊規則的適用度;
所述目標模糊評價網絡的模糊決策層選出最大適用度所對應的評價模糊規則并輸出相應的折扣因子γ′max2;
所述目標模糊評價網絡的輸出層并根據所接收到的模糊規則層輸出的折扣因子γ′max2,利用式(2)得到目標模糊評價網絡在t時刻輸出的Q值Q′(st+1,a′t+1):
式(2)中,ω′max2表示按照一定的周期更新所述目標模糊評價網絡的第max2條網絡權值參數后的更新值;γ′max2為折扣因子;
步驟9:建立所述目標模糊評價網絡結構相同的模糊評價網絡,利用式(3)得到所述模糊評價網絡的在t時刻輸出的Q值Q(st,at):
式(3)中,ωmax2表示第max2條評價模糊規則所對應的模糊評價網絡權值參數,Q′(st+1,a′t+1)為t時刻目標模糊評價網絡的輸出,γmax2為折扣因子;
步驟10:通過所述模糊評價網絡來對所述模糊動作網絡進行訓練,并通過梯度下降法對模糊動作網絡進行更新;
步驟10.1:利用式(4)計算誤差函數J(θmax1):
步驟10.2:利用式(5)計算所述模糊動作網絡的梯度
步驟10.3:通過式(6)得到更新后的模糊動作網絡參數
步驟11:通過所述目標模糊動作網絡和目標模糊評價網絡對所述模糊評價網絡進行訓練;
步驟11.1:利用式(7)計算均方差函數L:
步驟11.2:通過式(8)得到更新后的模糊評價網絡參數
步驟12:對所述目標模糊動作網絡參數θ′max1與目標模糊評價網絡的參數ω′max2進行更新;
步驟12.1:若所述最大迭代次數C與所述網絡更新頻率T比值的余數為1時,利用式(9)對網絡參數θ′max1進行更新,得到更新后的目標模糊動作網絡參數θ″max1,否則,不更新θ′max1與ω′max2;
θ″max1=τθmax1+(1-τ)θ′max1 (9)
步驟12.2:通過式(10)更新所述目標模糊評價網絡參數ω′max2,得到更新后的目標模糊評價網絡參數ω″max2:
ω″max2=τωmax2+(1-τ)ω′max2 (10)
步驟13:將t+1賦值給t后,判斷t>C是否成立,若成立,則結束訓練,并得到最優模糊動作網絡;否則,返回步驟5執行;
步驟14:利用所述最優模糊動作網絡對實時輸入的狀態信息輸出相應的控制指令,從而完成自動泊車。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910810427.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:混合動力車輛的控制裝置
- 下一篇:一種基于V2X的商用車緊急制動方法





