[發明專利]自動駕駛車輛的抗干擾方法和裝置在審
| 申請號: | 202110711897.9 | 申請日: | 2021-06-25 |
| 公開(公告)號: | CN113485313A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 嚴佳龍 | 申請(專利權)人: | 杭州玳數科技有限公司 |
| 主分類號: | G05D1/00 | 分類號: | G05D1/00;G06N20/00 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 陳紅橋 |
| 地址: | 310030 浙江省杭州市西湖區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 駕駛 車輛 抗干擾 方法 裝置 | ||
1.一種自動駕駛車輛的抗干擾方法,其特征在于,包括以下步驟:
S1,基于強化學習中的異步優勢行動者評論家算法對目標智能體進行預訓練,其中,目標智能體為具有自動駕駛控制模型的自動駕駛車輛;
S2,固定預訓練后的目標智能體的策略,并以預訓練后的目標智能體的策略,利用深度確定性決策梯度算法訓練對抗性智能體;
S3,固定訓練后的對抗性智能體的策略,并以預訓練后的對抗性智能體的策略,基于注意力機制對目標智能體進行對抗性訓練;
S4,通過對抗性訓練后的目標智能體實現自動駕駛控制。
2.根據權利要求1所述的自動駕駛車輛的抗干擾方法,其特征在于,在步驟S1中,強化學習中的異步優勢行動者評論家算法采用多線程對目標智能體進行預訓練,算法模型的主網絡和子線程網絡均分為Actor網絡和Critic網絡,每個線程各自更新子線程網絡的參數,當每個子線程網絡產生一定的訓練數據后,計算各自子線程網絡的損害函數的梯度,然后利用計算的梯度去迭代更新主網絡,主網絡的參數每間隔一定時間分發給子線程網絡。
3.根據權利要求2所述的自動駕駛車輛的抗干擾方法,其特征在于,在步驟S2中,深度確定性決策梯度算法的網絡結構由Actor網絡和Critic網絡兩大部分組成,Actor網絡包含動作估計網絡和動作實現網絡,Critic網絡包含狀態估計網絡和狀態實現網絡,在利用深度確定性決策梯度算法訓練對抗性智能體的訓練過程中,將狀態轉換過程存儲在經驗回放緩沖區,作為訓練數據集,最終訓練后的對抗性智能體用以挖掘預訓練后的目標智能體的策略中存在的安全漏洞。
4.根據權利要求3所述的自動駕駛車輛的抗干擾方法,其特征在于,在步驟S3中,在對目標智能體進行對抗性訓練的過程中,每隔一定的回合生成對抗樣本,利用通道空間注意力機制和像素空間注意力機制從目標智能體主網絡的Actor網絡中提取淺層特征以生成不同狀態的對抗樣本,將生成的對抗樣本作為輸入狀態對目標智能體進行對抗訓練。
5.根據權利要求4所述的自動駕駛車輛的抗干擾方法,其特征在于,步驟S2和S3重復多次執行。
6.一種自動駕駛車輛的抗干擾裝置,其特征在于,包括:
第一訓練模塊,用于基于強化學習中的異步優勢行動者評論家算法對目標智能體進行預訓練,其中,目標智能體為具有自動駕駛控制模型的自動駕駛車輛;
第二訓練模塊,用于固定預訓練后的目標智能體的策略,并以預訓練后的目標智能體的策略,利用深度確定性決策梯度算法訓練對抗性智能體;
第三訓練模塊,用于固定訓練后的對抗性智能體的策略,并以預訓練后的對抗性智能體的策略,基于注意力機制對目標智能體進行對抗性訓練;
控制模塊,用于通過對抗性訓練后的目標智能體實現自動駕駛控制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州玳數科技有限公司,未經杭州玳數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110711897.9/1.html,轉載請聲明來源鉆瓜專利網。





