[發明專利]基于多網絡聯合學習的駕駛行為決策方法在審
| 申請號: | 202111392795.1 | 申請日: | 2021-11-23 |
| 公開(公告)號: | CN114137967A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 鐘珊;衛夢;伏玉琛;應文豪;閆海英 | 申請(專利權)人: | 常熟理工學院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張俊范 |
| 地址: | 215500 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 聯合 學習 駕駛 行為 決策 方法 | ||
1.一種基于多網絡聯合學習的駕駛行為決策方法,其特征在于,包括以下步驟:
步驟1、以車輛攝像頭采集的視頻幀序列和車輛內置傳感器傳感的數據為狀態數據,由駕駛員根據環境情況執行的車輛動作與相應的狀態數據構成狀態數據與動作對作為專家示例數據;
步驟2、對專家示例數據進行正則化;
步驟3、由兩層特征融合卷積網絡對狀態數據進行融合形成狀態特征;
步驟4、構建生成對抗網絡、隱變量估計網絡以及策略網絡,所述生成對抗網絡包括生成器和對抗網絡,所述生成器采用策略網絡生成樣本,所述對抗網絡用于鑒別生成器生成的樣本和專家示例;所述隱變量估計網絡估計策略網絡中隱藏的隱變量,所述策略網絡用于根據當前狀態特征和對應的隱變量生成動作;
步驟5、以狀態特征和相應的動作構成訓練樣本,采用無監督學習訓練所述對抗網絡,采用監督學習訓練所述隱變量估計網絡,采用強化學習中的策略梯度算法訓練所述策略網絡;三個網絡的參數在訓練過程中,采取固定二個網絡來訓練另一個網絡的形式,進行交叉的聯合學習;
步驟6、根據當前采集視頻幀序列和車輛內置傳感器傳感的數據,經過與步驟2相同的正則化由特征融合卷積網絡形成狀態特征送入訓練完成的隱變量估計網絡生成隱變量,再由訓練完成的策略網絡根據當前的狀態特征及隱變量得到當前的狀態下的動作,實現駕駛行為決策。
2.根據權利要求1所述的基于多網絡聯合學習的駕駛行為決策方法,其特征在于,所述步驟5具體是:根據初始的狀態分布和隱變量的先驗分布來生成狀態和隱變量元組作為生成器的輸入,然后通過策略網絡生成下一時刻要做出的動作作為生成器的輸出,將生成器的輸入和輸出組合構成三元組放入經驗池中,由經驗池為所述對抗網絡和隱變量估計網絡提供樣本,所述經驗池包括生成器生成的樣本以及專家示例樣本,訓練時所述對抗網絡的輸入是從經驗池中采集的狀態動作對,對抗網絡的輸出是樣本屬于生成器生成的樣本還是專家示例樣本的概率估計;訓練時所述策略網絡的輸入是從經驗池中采集的三元組,并且以三元組輸出對抗網絡后得到概率估計值作為立即獎賞值;訓練時所述隱變量估計網絡的輸入是從經驗池中采集的狀態特征和動作對,標簽為狀態特征和動作對所對應的隱變量。
3.根據權利要求2所述的基于多網絡聯合學習的駕駛行為決策方法,其特征在于,采用梯度上升算法對抗網絡的參數進行更新。
4.根據權利要求2所述的基于多網絡聯合學習的駕駛行為決策方法,其特征在于,采用策略梯度算法訓練所述策略網絡時的目標函數可以表示為:
其中,minθ是指最小化策略網絡的參數;maxω是指最大化對抗網絡的參數;表示專家策略的期望值,πθ,Dω,Qψ分別表示所學策略、對抗網絡和隱變量估計網絡的訓練參數;(s,a)表示軌跡中的狀態特征和動作對;指在當前狀態特征s下依據策略πθ做出動作獲得的獎賞值的期望,λ0是該期望值的超參數;LI(πθ,Qψ)表示策略πθ和鑒別網絡Qψ中潛碼的互信息,λ1是信息最大化正則項的超參數;H(πθ)定義為策略πθ的折扣因果熵,λ2是其超參數。
5.根據權利要求2所述的基于多網絡聯合學習的駕駛行為決策方法,其特征在于,所述隱變量估計網絡訓練時的損失函數為其中,Qψ(c|s,a)是隱變量估計網絡Q在狀態特征動作對(s,a)以及潛碼c作用下的預測值,表示隱變量估計網絡的梯度,表示網絡參數的期望。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常熟理工學院,未經常熟理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111392795.1/1.html,轉載請聲明來源鉆瓜專利網。





