[發(fā)明專利]一種基于Actor-Critic算法的水下機(jī)器人運(yùn)動(dòng)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011432207.8 | 申請(qǐng)日: | 2020-12-09 |
| 公開(kāi)(公告)號(hào): | CN112462792B | 公開(kāi)(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計(jì))人: | 孫延超;杜雨桐;王卓;吳淼;秦洪德;韓光潔 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G05D1/06 | 分類號(hào): | G05D1/06 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 張換男 |
| 地址: | 150001 黑龍江*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 actor critic 算法 水下 機(jī)器人 運(yùn)動(dòng) 控制 方法 | ||
一種基于Actor?Critic算法的水下機(jī)器人運(yùn)動(dòng)控制方法,本發(fā)明涉及水下機(jī)器人運(yùn)動(dòng)控制方法。本發(fā)明的目的是為了解決現(xiàn)有水下機(jī)器人難以在運(yùn)動(dòng)過(guò)程中實(shí)時(shí)調(diào)節(jié)參數(shù),且受到干擾時(shí),控制器對(duì)水下機(jī)器人速度和姿態(tài)的控制精度低問(wèn)題。過(guò)程為:一、初始化參數(shù);二、確定速度控制系統(tǒng)和艏向控制系統(tǒng)的控制律;三、設(shè)定神經(jīng)網(wǎng)絡(luò);四、確定當(dāng)前網(wǎng)絡(luò)的輸入和輸出;五、確定目標(biāo)網(wǎng)絡(luò)的輸入和輸出;六、更新Actor當(dāng)前網(wǎng)絡(luò)權(quán)值參數(shù);七、更新Critic當(dāng)前網(wǎng)絡(luò)權(quán)值參數(shù);八、重復(fù)執(zhí)行四至七n次,第n次將更新后的當(dāng)前網(wǎng)絡(luò)權(quán)值參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò);九、重復(fù)執(zhí)行八,得到控制律參數(shù)值。本發(fā)明用于水下機(jī)器人運(yùn)動(dòng)控制領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及基于Actor-Critic算法的水下機(jī)器人運(yùn)動(dòng)控制方法。
背景技術(shù)
自主水下機(jī)器人(Autonomous Underwater Vehicle,AUV)作為探索海洋的重要技術(shù)手段,近幾年在海洋環(huán)境科學(xué)、生物學(xué)、考古學(xué)、地理學(xué)等許多學(xué)科領(lǐng)域具有革命性應(yīng)用,給許多研究提供了重要幫助,也因此受到社會(huì)各界的廣泛關(guān)注。AUV復(fù)雜的動(dòng)力學(xué)特性和多變的海洋環(huán)境對(duì)其運(yùn)動(dòng)控制提出了巨大挑戰(zhàn),因此,對(duì)AUV運(yùn)動(dòng)控制方法開(kāi)展研究具有重要實(shí)踐意義。在海洋中行進(jìn)時(shí),AUV受到的干擾包括洋流擾動(dòng)、模型部分不確定等因素,而AUV執(zhí)行的大部分任務(wù)都需要其具有良好的精確性,即對(duì)控制器的精度要求極高。部分傳統(tǒng)控制方法依托于動(dòng)力學(xué)方程進(jìn)行推導(dǎo),并通過(guò)反復(fù)實(shí)驗(yàn)選擇合適的控制參數(shù)組成控制器,這種方法有著較高的穩(wěn)定性,但人工選擇參數(shù)的方式注定了其參數(shù)不容易接近最優(yōu)解,不利于控制器精度的提高。隨著人工智能科學(xué)的不斷發(fā)展,不同強(qiáng)化學(xué)習(xí)算法被陸續(xù)提出,它們也逐漸被應(yīng)用在控制領(lǐng)域。但許多較為成熟的應(yīng)用實(shí)例大多基于簡(jiǎn)單動(dòng)力學(xué)模型,對(duì)于AUV這類復(fù)雜的系統(tǒng),單獨(dú)的強(qiáng)化學(xué)習(xí)控制器并不能保證良好的魯棒性,在復(fù)雜的運(yùn)動(dòng)環(huán)境中無(wú)法實(shí)現(xiàn)快速而精確的控制效果,因此這類控制方法也很難實(shí)現(xiàn)實(shí)物應(yīng)用。考慮上述兩種控制方法各自的優(yōu)劣,近幾年也有很多將強(qiáng)化學(xué)習(xí)算法與傳統(tǒng)控制相結(jié)合的控制器被提出,但它們大多是基于Q值表或DQN等value-based算法或Policy Gradient這種簡(jiǎn)單的policy-based算法。毫無(wú)疑問(wèn)這兩種算法都有其不可避免的缺陷,如Q值表和DQN算法在系統(tǒng)動(dòng)作空間較大的情況下精度較差,Policy Gradient訓(xùn)練需要數(shù)據(jù)量較大等。因此本發(fā)明針對(duì)AUV的速度與姿態(tài)控制問(wèn)題,綜合上述控制方法的優(yōu)點(diǎn)與缺點(diǎn),提出一種基于改進(jìn)Actor-Critic算法的參數(shù)自適應(yīng)反步控制器,實(shí)現(xiàn)對(duì)AUV速度和姿態(tài)的控制。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有水下機(jī)器人難以在運(yùn)動(dòng)過(guò)程中實(shí)時(shí)調(diào)節(jié)參數(shù),且受到干擾時(shí),控制器對(duì)水下機(jī)器人速度和姿態(tài)的控制精度低問(wèn)題,而提出一種基于Actor-Critic算法的水下機(jī)器人運(yùn)動(dòng)控制方法。
一種基于Actor-Critic算法的水下機(jī)器人運(yùn)動(dòng)控制方法具體過(guò)程為:
步驟一、初始化參數(shù);
步驟二、基于反步法分別設(shè)計(jì)水下機(jī)器人的速度控制系統(tǒng)和艏向控制系統(tǒng),再根據(jù)設(shè)計(jì)的速度控制系統(tǒng)以及艏向控制系統(tǒng)確定速度控制系統(tǒng)的控制律以及艏向控制系統(tǒng)的控制律;
步驟三、設(shè)定Actor-Critic神經(jīng)網(wǎng)絡(luò),Actor-Critic神經(jīng)網(wǎng)絡(luò)包括四個(gè)RBF神經(jīng)網(wǎng)絡(luò),分別為Actor當(dāng)前網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic當(dāng)前網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò);
步驟四、確定Actor當(dāng)前網(wǎng)絡(luò)的輸入和輸出;確定Critic當(dāng)前網(wǎng)絡(luò)的輸入和輸出;
步驟五、確定Actor目標(biāo)網(wǎng)絡(luò)的輸入和輸出;確定Critic目標(biāo)網(wǎng)絡(luò)的輸入和輸出;
步驟六、設(shè)定Actor網(wǎng)絡(luò)的損失函數(shù),對(duì)Actor網(wǎng)絡(luò)的損失函數(shù)求梯度下降,并通過(guò)RBF神經(jīng)網(wǎng)絡(luò)更新公式更新Actor當(dāng)前網(wǎng)絡(luò)權(quán)值參數(shù);
步驟七、計(jì)算Critic網(wǎng)絡(luò)的損失函數(shù),對(duì)Critic網(wǎng)絡(luò)的損失函數(shù)求梯度下降,并通過(guò)RBF神經(jīng)網(wǎng)絡(luò)更新公式來(lái)更新Critic當(dāng)前網(wǎng)絡(luò)權(quán)值參數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011432207.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Actor模型的調(diào)度方法及裝置
- 一種基于Actor模型的多設(shè)備運(yùn)行管理方法
- 一種基于Actor-Critic算法的數(shù)控機(jī)床進(jìn)給控制補(bǔ)償方法
- 一種基于Actor模型的SE芯片測(cè)試設(shè)計(jì)方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 一種在線考試系統(tǒng)試卷答案數(shù)據(jù)傳輸方法及裝置
- 一種基于混合行為空間的強(qiáng)化學(xué)習(xí)方法
- 基于Actor模型的任務(wù)調(diào)度方法、裝置
- 一種基于模仿學(xué)習(xí)的Deepfake檢測(cè)方法
- 一種基于actor模型的物聯(lián)網(wǎng)設(shè)備通訊方法和系統(tǒng)
- 一種基于Actor-Critic算法的數(shù)控機(jī)床進(jìn)給控制補(bǔ)償方法
- 基于Actor-Critic生成式對(duì)抗網(wǎng)絡(luò)的圖片描述生成方法及系統(tǒng)
- 共享循環(huán)神經(jīng)網(wǎng)絡(luò)的高效值函數(shù)迭代強(qiáng)化學(xué)習(xí)方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 基于深度強(qiáng)化學(xué)習(xí)中Actor-Critic框架的策略選擇方法
- 面向深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊的模型增強(qiáng)防御方法
- 一種基于數(shù)據(jù)挖掘的多critic強(qiáng)化學(xué)習(xí)的電力經(jīng)濟(jì)調(diào)度方法
- 基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人駕駛端到端決策方法
- 一種基于值分解和注意力機(jī)制的多智能體強(qiáng)化學(xué)習(xí)方法





