[發(fā)明專利]一種基于雙評論家強(qiáng)化學(xué)習(xí)技術(shù)的水下航行器目標(biāo)區(qū)域上浮控制方法有效
| 申請?zhí)枺?/td> | 202110262597.7 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113033119B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 李沂濱;張?zhí)鞚?/a>;繆旭弘;魏征;尤岳;周廣禮;賈磊;莊英豪;宋艷 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G06F30/28 | 分類號: | G06F30/28;G06N3/04;G06N3/08;B63G8/18;B63G8/14 |
| 代理公司: | 濟(jì)南金迪知識產(chǎn)權(quán)代理有限公司 37219 | 代理人: | 王楠 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 評論家 強(qiáng)化 學(xué)習(xí) 技術(shù) 水下 航行 目標(biāo) 區(qū)域 上浮 控制 方法 | ||
本發(fā)明涉及一種基于雙評論家強(qiáng)化學(xué)習(xí)技術(shù)的水下航行器目標(biāo)區(qū)域上浮控制方法,屬于海洋控制實(shí)驗(yàn)技術(shù)領(lǐng)域,基于深度強(qiáng)化學(xué)習(xí)中的DDPG算法框架,在水下航行器智能體訓(xùn)練過程中既使用先前得到的專家數(shù)據(jù),又使用智能體與任務(wù)環(huán)境交互得到的交互數(shù)據(jù),兩者混合采集,大大提升了算法收斂速度。同時(shí),本發(fā)明利用兩組彼此獨(dú)立的評論家網(wǎng)絡(luò),通過取兩者分別輸出Q(s,a)的最小值得到演員網(wǎng)絡(luò)的損失函數(shù),有效降低了強(qiáng)化學(xué)習(xí)算法中存在的過偏估計(jì)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于雙評論家強(qiáng)化學(xué)習(xí)技術(shù)的水下航行器目標(biāo)區(qū)域上浮控制方法,屬于海洋控制實(shí)驗(yàn)技術(shù)領(lǐng)域。
背景技術(shù)
水下航行器作為關(guān)鍵的海洋裝備,廣泛的被應(yīng)用于海洋的地形測繪、資源勘探、考古調(diào)查、管道維護(hù)、生物監(jiān)測等諸多科研及工程領(lǐng)域,是人類探索海洋的重要手段。然而,海底環(huán)境復(fù)雜多變,水下航行器工作在這樣的環(huán)境中,當(dāng)遭遇故障或強(qiáng)干擾時(shí),若不能及時(shí)、安全、智能地上浮至母船所在區(qū)域,勢必會導(dǎo)致經(jīng)濟(jì)損失及重要數(shù)據(jù)遺失。因此,為了增強(qiáng)水下航行器在海底復(fù)雜環(huán)境下的適應(yīng)能力、提升水下航行器智能決策可靠性,開展針對水下航行器目標(biāo)區(qū)域智能上浮控制算法的研究是十分必要的。
然而實(shí)現(xiàn)水下航行器智能化控制仍然有很多困難點(diǎn)。傳統(tǒng)的例如比例積分微分(PID)控制器等線性控制器,對于水下航行器這類具有復(fù)雜非線性動力學(xué)特性的系統(tǒng),難以取得良好的控制性能。即便使用現(xiàn)有的非線性控制器,在實(shí)際的任務(wù)環(huán)境中水下航行器動態(tài)模型及任務(wù)環(huán)境模型都難以精確獲取,所以也難以獲得良好的控制效果(Hui Wu etal.,“Depth Control of Model-Free AUVs via Reinforcement Learning”,IEEETransactions on Systems,Man,and Cybernetics:Systems,Vol.49,pp.2499-2510,Dec.2019)。此外,復(fù)雜多變的洋流、懸浮于水中或海面的障礙物都會對水下航行器的目標(biāo)區(qū)域上浮控制帶來干擾。所以需要一種可以不依賴于模型且能夠進(jìn)行自學(xué)習(xí)的智能控制算法來解決上述問題。
機(jī)器學(xué)習(xí)技術(shù)近些年的快速發(fā)展給水下航行器智能化控制帶來更多可能。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為一種可以解決無模型馬爾可夫決策過程(Markovdecision process,MDP)問題的算法框架,能夠構(gòu)建一個(gè)與海底任務(wù)環(huán)境不斷交互的水下航行器智能體,在無任務(wù)環(huán)境模型的情況下通過獲取來自任務(wù)環(huán)境反饋的懲罰或獎(jiǎng)勵(lì),最大化累積獎(jiǎng)勵(lì)來最終尋找到完成任務(wù)的最優(yōu)策略,如圖1所示。
然而,現(xiàn)有基于傳統(tǒng)RL進(jìn)行水下航行器控制的研究及發(fā)明存在著一些顯著的缺陷:首先,基于傳統(tǒng)強(qiáng)化學(xué)習(xí)如Q-learning等算法,需要構(gòu)建一張尺寸巨大的Q值表以存儲高緯度的動作空間、狀態(tài)空間中存在的Q(s,a)值,而隨著智能體在高維度的動作、狀態(tài)空間中的不斷訓(xùn)練,Q值表內(nèi)的Q值個(gè)數(shù)會爆炸式增長,使得該方法有很大局限性。而后,隨著谷歌Deepmind團(tuán)隊(duì)提出的將深度學(xué)習(xí)與傳統(tǒng)Q-learning技術(shù)結(jié)合而誕生的深度強(qiáng)化學(xué)習(xí)算法DRL(Deep reinforcement learning)算法,該算法中Q值表被神經(jīng)網(wǎng)絡(luò)代替而成為DQN(Deep Q Net)(V.Mnih et al.,“Human-level control through deep reinforcementlearning,”Nature,vol.518,pp.529-533,2015.),但DQN算法只適用于離散動作空間,制約其應(yīng)用于水下航行器智能化控制;DDPG(Deep Deterministic Policy Gradient)(Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deepreinforcement learning[J].Computer ence,2015,8(6):A187.)是一種適用于連續(xù)動作空間的控制算法,但其中的評論家網(wǎng)絡(luò)輸出的Q(s,a)來自于動作-價(jià)值函數(shù)的期望,導(dǎo)致其存在過高估計(jì)的弊端。并且,以上RL方法并未考慮容易獲取且性能可靠的專家數(shù)據(jù),導(dǎo)致算法在訓(xùn)練收斂速度過慢,且在訓(xùn)練初期存在很大隨機(jī)性。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110262597.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于行動者評論家強(qiáng)化學(xué)習(xí)算法的循環(huán)網(wǎng)絡(luò)人機(jī)對話方法
- 基于演員-評論家網(wǎng)絡(luò)的SQL語句構(gòu)造方法
- 基于深度強(qiáng)化學(xué)習(xí)的自動駕駛智能車軌跡跟蹤控制策略
- 一種基于生成對抗網(wǎng)絡(luò)的在線評論商品特征觀點(diǎn)提取方法
- 一種用于自動分類法歸納的行動者—評論家方法
- 基于強(qiáng)化學(xué)習(xí)的聯(lián)合決策方法及裝置
- 基于演員-評論家算法的分布式交通信號燈聯(lián)合控制方法
- 基于演員-評論家強(qiáng)化學(xué)習(xí)和模糊邏輯的多智能體編隊(duì)控制方法
- 一種基于雙評論家強(qiáng)化學(xué)習(xí)技術(shù)的水下航行器目標(biāo)區(qū)域上浮控制方法
- 動態(tài)優(yōu)勢函數(shù)建模方法、裝置、存儲介質(zhì)及電子設(shè)備
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





