[發明專利]基于多網絡聯合學習的駕駛行為決策方法在審
| 申請號: | 202111392795.1 | 申請日: | 2021-11-23 |
| 公開(公告)號: | CN114137967A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 鐘珊;衛夢;伏玉琛;應文豪;閆海英 | 申請(專利權)人: | 常熟理工學院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張俊范 |
| 地址: | 215500 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 聯合 學習 駕駛 行為 決策 方法 | ||
本發明公開了一種基于多網絡聯合學習的駕駛行為決策方法,包括數據采集,數據包括狀態數據及動作;數據正則化;由特征融合卷積網絡提取狀態特征;構建網絡,其中生成對抗網絡包括生成器和對抗網絡,生成器采用策略網絡生成樣本,對抗網絡用于鑒別生成器生成的樣本和專家示例;隱變量估計網絡估計策略網絡中的隱變量,策略網絡用于根據當前狀態特征和隱變量生成動作;采用無監督學習和監督學習訓練對抗網絡和隱變量估計網絡,采用策略梯度算法訓練策略網絡;當前在線數據經過訓練后的策略網絡,實現駕駛行為決策。本發明采用人工智能的方法,即不需要給智能體規定特定場景,也無需給出智能體的條件規則庫就可以自動學習行為策略,具有更為廣泛的應用性。
技術領域
本發明涉及一種駕駛行為決策方法,特別是涉及一種基于多網絡聯合學習的駕駛行為決策方法。
背景技術
在自動駕駛領域,如何在僅有車輛前置攝像頭拍攝視頻和車載傳感器感知數據以及相應的專家動作的情況下,學習最優策略是一個富有挑戰性的問題。強化學習能通過最大化長期的累積回報來尋找最優策略,然而,該方法需要事先確定獎賞函數。在實際的應用中,大部分的應用都沒有給出獎賞函數。因此,不能直接利用強化學習來直接求解最優策略。模仿學習相對于強化學習,能從專家示例中學習最優策略。模仿學習主要包含有兩種算法——行為克隆和逆強化學習。行為克隆雖然看似簡單,但由于協變量移位引起的復合誤差,使其只適用于具有大量專家示例的情況。
逆強化學習在學習最優策略的過程中需要重復循環強化學習的步驟,該方法在解決大型問題中遇到了瓶頸。逆強化學習的本質是學習一個獎賞函數,在學習完獎賞函數后,再利用強化學習算法來學習策略,能夠直接將狀態映射到所需執行的動作上。這種通過間接學習獎賞函數來學習最優策略的方法效率較低。Jonathan等人提出了一種無模型的模仿學習框架GAIL,它可以直接從專家示例中學習最優策略,從而避免了對獎賞函數的學習。經實驗表明,在大規模的高維復雜環境中,相比于生成對抗網絡和模仿學習,該算法在性能上有了顯著的提升。
模仿學習的目的是為了直接模擬專家策略從而避免學習獎賞函數,而專家策略是通過訓練專家示例得出的。由于專家示例常常受客觀因素的影響,這些外部隱藏因素很難被模擬環境捕捉到,學習到的策略也會因此受到影響。
發明內容
針對上述現有技術的缺陷,本發明提供了一種基于多網絡聯合學習的駕駛行為決策方法,使得模型不僅可以模擬專家示例,同時可以通過最大化策略與隱變量之間的互信息,自動推斷出所學策略中蘊含的隱變量,增強決策結果對外部隱藏因素的響應,提高其應用的廣泛性。
本發明技術方案如下:一種基于多網絡聯合學習的駕駛行為決策方法,包括以下步驟:
步驟1、以車輛攝像頭采集的視頻幀序列和車輛內置傳感器感知的數據為狀態數據,由駕駛員根據環境情況執行的車輛動作與相應的狀態數據構成狀態數據與動作對作為專家示例數據;
步驟2、對專家示例數據進行正則化;
步驟3、由兩層特征融合的卷積網絡對狀態數據進行融合形成狀態特征;
步驟4、構建生成對抗網絡、隱變量估計網絡以及策略網絡,所述生成對抗網絡包括生成器和對抗網絡,所述生成器采用策略網絡生成樣本,所述對抗網絡用于鑒別生成器生成的樣本和專家示例;所述隱變量估計網絡估計策略網絡中隱藏的隱變量,所述策略網絡用于根據當前狀態特征和對應的隱變量生成動作;
步驟5、以狀態特征和相應的動作構成訓練樣本,采用無監督學習訓練所述對抗網絡,采用監督學習訓練所述隱變量估計網絡,采用強化學習中的策略梯度算法訓練所述策略網絡;三個網絡的參數在訓練過程中,采取固定二個網絡來訓練另一個網絡的形式,進行交叉的聯合學習;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常熟理工學院,未經常熟理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111392795.1/2.html,轉載請聲明來源鉆瓜專利網。





