[發明專利]一種多智能體多場景數據集訓練的自動駕駛方法在審
| 申請號: | 202011522406.8 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112650240A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 崔玉康;丘江亮;沈俊 | 申請(專利權)人: | 深圳大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 518061 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 場景 數據 集訓 自動 駕駛 方法 | ||
1.一種多智能體多場景數據集訓練的自動駕駛方法,其特征在于,所述方法包括以下步驟:
S1:在一個終端控制范圍內設置若干智能體;
S2:利用智能體在現實場景中采集數據集;
S3:對S2采集的數據集進行深度學習處理,得到現實場景和在現實場景下智能體采取的動作;
S4:根據S3處理的結果,將現實場景和在現實場景下智能體采取的動作保存至終端;
S5:智能體采集實時運行場景,并將實時運行場景轉換為數據發送至終端;終端將實時運行場景與終端保存的現實場景進行對比,當達到預設相似度值后,終端選取最優處理措施指導智能體進行路徑規劃和避障。
2.根據權利要求1所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,S3具體包括以下步驟:
S3.1:初始化存放自動駕駛智能體所采集數據的容器,以及初始化該容器的大小;確定該容器可容納的數據條數N;
S3.2:初始化Q函數,并根據智能體采集到的數據對Q函數進行更新,得到最高評分狀態下的Q函數;
S3.3:利用最高評分狀態下的Q函數對顯示場景進行處理,并將處理后得出的動作;
S3.4:將現實場景和S3.3得到的動作存儲至終端。
3.根據權利要求2所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,S3.2包括以下步驟:
S3.2.1:設φt為智能體采集到的第t個數據,rt為第t個分數;令t=1;
其中,r1為初始分數值,根據工程經驗進行人為設置;
S3.2.2:將φt和rt輸入Q函數,得到一個Q值;
S3.2.3:按以下兩種方式之一選擇一個動作;
(1)任意選擇一個動作;(2)根據Q值選擇一個動作;
S3.2.4:S3.4:智能體開始在仿真器中執行S3.3中所選擇的操作;得到分數rt+1,并根據Q函數的損失函數來更新θ;
S3.2.5:判斷tN是否成立,若成立則結束操作,并輸出評分最高狀態下的θ,然后利用更新后的θ對Q函數進行更新;
若不成立,則將得到的rt+1、更新后的θ、φt+1存儲至容器,且令t=t+1,并返回S3.2.2。
4.根據權利要求3所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,S3.2.3中選擇動作的方法具體為:
構建動作函數;
以任意選擇一個動作的概率為ε,根據Q值選擇一個動作的概率為1-ε,
如果沒有發生根據Q值選擇一個動作的情況,則選擇當前動作函數值最大的動作。
5.根據權利要求4所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,如果沒有發生根據Q值選擇一個動作的情況,則根據貪婪策略選擇當前選擇動作函數值最大的動作。
6.根據權利要求5所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,動作函數為:at=argmaxQ(s,a,θ)
其中,Q(s,a,θ)為Q函數。
7.根據權利要求6所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,Q函數的損失函數為:
Δθ=E[(rt+γmaxQ(s',a',θ)-Q(s,a,θ)]
其中,γ為衰減因子,γ∈(0,1),Q(s',a',θ)為Q(s,a,θ)的倒數,E[·]表示求均值。
8.根據權利要求7所述多智能體多場景數據集訓練的自動駕駛方法,其特征在于,及更新θ的公式為:θ=θ+Δθ。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳大學,未經深圳大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011522406.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





