[發明專利]基于逆向強化學習的駕駛員行為建模方法有效
| 申請號: | 201810660203.1 | 申請日: | 2018-06-25 |
| 公開(公告)號: | CN108819948B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 鄒啟杰;李昊宇;裴炳南 | 申請(專利權)人: | 大連大學 |
| 主分類號: | B60W40/09 | 分類號: | B60W40/09;B60W50/00 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 蓋小靜 |
| 地址: | 116622 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 逆向 強化 學習 駕駛員 行為 建模 方法 | ||
1.一種基于逆向強化學習的駕駛員行為建模方法,其特征在于,具體包括如下步驟:
S1,構建駕駛環境特征提取器,用于提取構建回報函數的特征;
S2,構建回報函數生成器,用于駕駛策略的獲取;
S3,構建駕駛策略獲取器,完成駕駛策略的構建;
S4,判斷獲取器構建的最優駕駛策略,其是否滿足評判標準;若不滿足,則重復執行步驟S2重新構建回報函數,重復構建最優駕駛策略,反復迭代,直到滿足評判標準;最終獲得描述真實駕駛示范的駕駛策略;
步驟S1的具體實現過程是:
S11.在車輛行駛過程中,利用放在車輛擋風玻璃后面的攝像機對駕駛視頻進行采樣,獲得N組不同車輛駕駛環境道路情況的圖片;同時對應駕駛操作數據,即該道路環境下的轉向角情況,聯合構建起來訓練數據;
S12.對收集來的圖片進行平移、裁剪、變更亮度操作,以模擬不同光照和天氣的場景;
S13.構建卷積神經網絡,將經過處理后的圖片作為輸入,對應圖片的操作數據作為標簽值,進行訓練,采用基于Nadam優化器的優化方法對均方誤差損失求最優解來優化神經網絡的權重參數;
S14.將訓練完成后的卷積神經網絡的網絡結構和權值保存,以建立新的一個卷積神經網絡,完成狀態特征提取器;
步驟S2的具體實現過程是:
S21.獲得專家的駕駛示范數據:駕駛示范數據來自對于示范駕駛視頻數據的采樣提取,按照一定頻率對一段連續的駕駛視頻進行采樣,得到一組軌跡示范;一個專家示范數據包括多條軌跡,總體記做:
其中DE表示整體的駕駛示范數據,(sj,aj)表示對應狀態j和該狀態對應決策指令構成的數據對,M代表總共的駕駛示范數據的個數,NT代表各條駕駛示范軌跡,Li代表第i條駕駛示范軌跡中包含的狀態-決策指令對(sj,aj)的個數;
S22.求取駕駛示范的特征期望值;
首先將駕駛示范數據DE中的各個描述駕駛環境情況的狀態st輸入S1中的狀態特征提取器中,獲得對應狀態st下的特征情況f(st,at),f(st,at)代指一組對應st的影響駕駛決策結果的駕駛環境場景特征值,然后基于下述公式計算出來駕駛示范的特征期望值:
其中γ為折扣因子,根據問題的不同,對應進行設置;
S23.求取貪婪策略下的狀態-動作集;
S24.求取回報函數的權值。
2.根據權利要求1所述一種基于逆向強化學習的駕駛員行為建模方法,其特征在于,步驟S13中建立的卷積神經網絡包括1個輸入層、3個卷積層、3個池化層、4個全連接層;輸入層依次連接第一個卷積層、第一個池化層,然后連接第二個卷積層、第二個池化層,再連接第三個卷積層、第三個池化層,最后依次連接第一個全連接層、第二個全連接層、第三個全連接層、第四個全連接層。
3.根據權利要求1所述一種基于逆向強化學習的駕駛員行為建模方法,其特征在于,步驟S14中的訓練完成后的卷積神經網絡不包括輸出層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810660203.1/1.html,轉載請聲明來源鉆瓜專利網。





