[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的智能體自主導(dǎo)航方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011023274.4 | 申請(qǐng)日: | 2020-09-25 |
| 公開(kāi)(公告)號(hào): | CN112179367B | 公開(kāi)(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計(jì))人: | 彭小紅;陳亮;陳榮發(fā);張軍;梁子祥;史文杰;黃文;陳劍勇;黃曾祺;余應(yīng)淮 | 申請(qǐng)(專利權(quán))人: | 廣東海洋大學(xué) |
| 主分類號(hào): | G01C21/34 | 分類號(hào): | G01C21/34;G06N3/0464;B63C11/52 |
| 代理公司: | 廣州智豐知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44655 | 代理人: | 邱奕才 |
| 地址: | 524000 *** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 智能 自主 導(dǎo)航 方法 | ||
本發(fā)明涉及智能體自主導(dǎo)航技術(shù)領(lǐng)域,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的智能體自主導(dǎo)航方法。用于解決因現(xiàn)有算法只計(jì)算相鄰兩個(gè)狀態(tài)的獎(jiǎng)勵(lì)值,使得智能體不能提前感知未來(lái)多個(gè)狀態(tài)的發(fā)展情況,導(dǎo)致智能體避障和導(dǎo)航能力不足的問(wèn)題。此種基于深度強(qiáng)化學(xué)習(xí)的智能體自主導(dǎo)航方法步驟為:構(gòu)建智能體自主導(dǎo)航系統(tǒng),所述智能體自主導(dǎo)航系統(tǒng)采用MS?DDQN算法,即面向多步機(jī)制的DDQN算法;搭建仿真環(huán)境;將所述自主導(dǎo)航系統(tǒng)置于所述仿真環(huán)境中進(jìn)行訓(xùn)練;將訓(xùn)練好的所述自主導(dǎo)航系統(tǒng)裝載到所述智能體上,所述智能體獲得自主導(dǎo)航的能力。通過(guò)上述技術(shù)方案,以實(shí)現(xiàn)智能體能夠感知未來(lái)障礙分布情況和提前做出規(guī)避動(dòng)作的技術(shù)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及智能體自主導(dǎo)航技術(shù)領(lǐng)域,更具體地,涉及一種基于深度強(qiáng)化學(xué)習(xí)的智能體自主導(dǎo)航方法。
背景技術(shù)
由于人類對(duì)陸地資源的過(guò)度開(kāi)采,導(dǎo)致礦產(chǎn)資源和生物資源等儲(chǔ)量都在快速地下降。而海洋面積是陸地面積的兩倍以上,其地下蘊(yùn)藏的礦產(chǎn)資源,能源資源以及漁業(yè)資源等遠(yuǎn)比陸地豐富。鑒于海洋環(huán)境的未知性及復(fù)雜性,智能體可以替代人類去進(jìn)行海洋資源的勘探和開(kāi)發(fā),因此近年來(lái)各個(gè)國(guó)家對(duì)智能體的研究十分重視。自主導(dǎo)航是研究智能移動(dòng)智能體的關(guān)鍵技術(shù)之一。自主導(dǎo)航是指智能體在對(duì)自身位姿信息已知的情況下,根據(jù)給定的一個(gè)或者多個(gè)約束條件,例如路徑長(zhǎng)度最短、能耗最小或者運(yùn)動(dòng)時(shí)間最少等,在含有復(fù)雜障礙物的環(huán)境中尋找到一條從起始點(diǎn)到達(dá)目標(biāo)點(diǎn)的最優(yōu)或者次優(yōu)路徑。智能體的自主導(dǎo)航問(wèn)題可以等價(jià)于智能體的自主路徑規(guī)劃問(wèn)題,目標(biāo)都是為了控制移動(dòng)智能體遠(yuǎn)離障礙物,趨向目標(biāo)位置。路徑規(guī)劃任務(wù)目標(biāo)是通過(guò)特定的算法,在已知或未知環(huán)境中尋找一條或多條從起點(diǎn)出發(fā)的,避開(kāi)各類障礙物,安全抵達(dá)目標(biāo)位置的路徑。其本質(zhì)可以視為一種條件優(yōu)化問(wèn)題,面對(duì)不同的要求,優(yōu)化的目標(biāo)存在一定的差異。針對(duì)已提出的各類導(dǎo)航算法,根據(jù)智能體智能化程度的不同將導(dǎo)航算法大致分為兩大類,分別是非智能導(dǎo)航算法和智能導(dǎo)航算法。通過(guò)設(shè)計(jì)一種模塊化的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu),使得每個(gè)模塊的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)處理的任務(wù)更加明確,同時(shí)采用雙神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方法提高算法的穩(wěn)定性;并對(duì)MS-DDQN算法的目標(biāo)值網(wǎng)絡(luò)的輸出方法、損失函數(shù)、獎(jiǎng)勵(lì)函數(shù)和經(jīng)驗(yàn)池存放的數(shù)據(jù)信息進(jìn)行改進(jìn),使得智能體在訓(xùn)練的過(guò)程中,獲得的獎(jiǎng)勵(lì)能夠往后擴(kuò)散多步間隔狀態(tài)的狀態(tài)價(jià)值估計(jì)值。通過(guò)這種方式指導(dǎo)水下智能體進(jìn)行快速的學(xué)習(xí),同時(shí)也使得水下智能體能提前感知未來(lái)狀態(tài)的變化,相當(dāng)于賦予了水下智能體感知未來(lái)障礙分布的能力,以幫助水下智能體提前做出規(guī)避動(dòng)作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東海洋大學(xué),未經(jīng)廣東海洋大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011023274.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





