[發(fā)明專利]一種多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011522406.8 | 申請(qǐng)日: | 2020-12-21 |
| 公開(公告)號(hào): | CN112650240A | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 崔玉康;丘江亮;沈俊 | 申請(qǐng)(專利權(quán))人: | 深圳大學(xué) |
| 主分類號(hào): | G05D1/02 | 分類號(hào): | G05D1/02 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 518061 廣東省深*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 場(chǎng)景 數(shù)據(jù) 集訓(xùn) 自動(dòng) 駕駛 方法 | ||
1.一種多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,所述方法包括以下步驟:
S1:在一個(gè)終端控制范圍內(nèi)設(shè)置若干智能體;
S2:利用智能體在現(xiàn)實(shí)場(chǎng)景中采集數(shù)據(jù)集;
S3:對(duì)S2采集的數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)處理,得到現(xiàn)實(shí)場(chǎng)景和在現(xiàn)實(shí)場(chǎng)景下智能體采取的動(dòng)作;
S4:根據(jù)S3處理的結(jié)果,將現(xiàn)實(shí)場(chǎng)景和在現(xiàn)實(shí)場(chǎng)景下智能體采取的動(dòng)作保存至終端;
S5:智能體采集實(shí)時(shí)運(yùn)行場(chǎng)景,并將實(shí)時(shí)運(yùn)行場(chǎng)景轉(zhuǎn)換為數(shù)據(jù)發(fā)送至終端;終端將實(shí)時(shí)運(yùn)行場(chǎng)景與終端保存的現(xiàn)實(shí)場(chǎng)景進(jìn)行對(duì)比,當(dāng)達(dá)到預(yù)設(shè)相似度值后,終端選取最優(yōu)處理措施指導(dǎo)智能體進(jìn)行路徑規(guī)劃和避障。
2.根據(jù)權(quán)利要求1所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,S3具體包括以下步驟:
S3.1:初始化存放自動(dòng)駕駛智能體所采集數(shù)據(jù)的容器,以及初始化該容器的大小;確定該容器可容納的數(shù)據(jù)條數(shù)N;
S3.2:初始化Q函數(shù),并根據(jù)智能體采集到的數(shù)據(jù)對(duì)Q函數(shù)進(jìn)行更新,得到最高評(píng)分狀態(tài)下的Q函數(shù);
S3.3:利用最高評(píng)分狀態(tài)下的Q函數(shù)對(duì)顯示場(chǎng)景進(jìn)行處理,并將處理后得出的動(dòng)作;
S3.4:將現(xiàn)實(shí)場(chǎng)景和S3.3得到的動(dòng)作存儲(chǔ)至終端。
3.根據(jù)權(quán)利要求2所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,S3.2包括以下步驟:
S3.2.1:設(shè)φt為智能體采集到的第t個(gè)數(shù)據(jù),rt為第t個(gè)分?jǐn)?shù);令t=1;
其中,r1為初始分?jǐn)?shù)值,根據(jù)工程經(jīng)驗(yàn)進(jìn)行人為設(shè)置;
S3.2.2:將φt和rt輸入Q函數(shù),得到一個(gè)Q值;
S3.2.3:按以下兩種方式之一選擇一個(gè)動(dòng)作;
(1)任意選擇一個(gè)動(dòng)作;(2)根據(jù)Q值選擇一個(gè)動(dòng)作;
S3.2.4:S3.4:智能體開始在仿真器中執(zhí)行S3.3中所選擇的操作;得到分?jǐn)?shù)rt+1,并根據(jù)Q函數(shù)的損失函數(shù)來(lái)更新θ;
S3.2.5:判斷tN是否成立,若成立則結(jié)束操作,并輸出評(píng)分最高狀態(tài)下的θ,然后利用更新后的θ對(duì)Q函數(shù)進(jìn)行更新;
若不成立,則將得到的rt+1、更新后的θ、φt+1存儲(chǔ)至容器,且令t=t+1,并返回S3.2.2。
4.根據(jù)權(quán)利要求3所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,S3.2.3中選擇動(dòng)作的方法具體為:
構(gòu)建動(dòng)作函數(shù);
以任意選擇一個(gè)動(dòng)作的概率為ε,根據(jù)Q值選擇一個(gè)動(dòng)作的概率為1-ε,
如果沒有發(fā)生根據(jù)Q值選擇一個(gè)動(dòng)作的情況,則選擇當(dāng)前動(dòng)作函數(shù)值最大的動(dòng)作。
5.根據(jù)權(quán)利要求4所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,如果沒有發(fā)生根據(jù)Q值選擇一個(gè)動(dòng)作的情況,則根據(jù)貪婪策略選擇當(dāng)前選擇動(dòng)作函數(shù)值最大的動(dòng)作。
6.根據(jù)權(quán)利要求5所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,動(dòng)作函數(shù)為:at=argmaxQ(s,a,θ)
其中,Q(s,a,θ)為Q函數(shù)。
7.根據(jù)權(quán)利要求6所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,Q函數(shù)的損失函數(shù)為:
Δθ=E[(rt+γmaxQ(s',a',θ)-Q(s,a,θ)]
其中,γ為衰減因子,γ∈(0,1),Q(s',a',θ)為Q(s,a,θ)的倒數(shù),E[·]表示求均值。
8.根據(jù)權(quán)利要求7所述多智能體多場(chǎng)景數(shù)據(jù)集訓(xùn)練的自動(dòng)駕駛方法,其特征在于,及更新θ的公式為:θ=θ+Δθ。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳大學(xué),未經(jīng)深圳大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011522406.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開關(guān)及其場(chǎng)景開關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





