[發(fā)明專利]一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010087510.2 | 申請(qǐng)日: | 2020-02-11 |
| 公開(公告)號(hào): | CN111176122B | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 王卓;張佩;秦洪德;孫延超;鄧忠超;張宇昂;景銳潔;曹禹 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04;G05D1/10 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 時(shí)起磊 |
| 地址: | 150001 黑龍江*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bp 神經(jīng)網(wǎng)絡(luò) 學(xué)習(xí) 技術(shù) 水下 機(jī)器人 參數(shù) 自適應(yīng) 控制 方法 | ||
1.一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法,其特征在于,該方法包括以下步驟:
步驟一、基于反步法分別設(shè)計(jì)水下機(jī)器人的速度控制系統(tǒng)和艏向控制系統(tǒng),再根據(jù)設(shè)計(jì)的速度控制系統(tǒng)以及艏向控制系統(tǒng)確定速度控制系統(tǒng)的控制律以及艏向控制系統(tǒng)的控制律;
水下機(jī)器人的速度控制系統(tǒng)為:
其中,m為水下機(jī)器人的質(zhì)量,和Xu|u|均為無量綱水動(dòng)力參數(shù),u為水下機(jī)器人縱向速度,|u|為u的絕對(duì)值,為水下機(jī)器人縱向加速度,τu為推進(jìn)器縱向推力,v為水下機(jī)器人橫向速度,r為水下機(jī)器人偏航角速度;
水下機(jī)器人速度控制系統(tǒng)的控制律為:
其中,ku為速度控制系統(tǒng)的控制律的待調(diào)節(jié)控制增益;ud為水下機(jī)器人縱向期望速度;
水下機(jī)器人的艏向控制系統(tǒng)為:
其中,為實(shí)際艏向角的一階導(dǎo)數(shù),為r的一階導(dǎo)數(shù),Nr、Nrr均為無量綱水動(dòng)力參數(shù),|r|為r的絕對(duì)值,τr為轉(zhuǎn)艏力矩,Iz為水下機(jī)器人繞運(yùn)動(dòng)坐標(biāo)系z(mì)軸的轉(zhuǎn)動(dòng)慣量;
所述運(yùn)動(dòng)坐標(biāo)系為:以水下機(jī)器人的重心為原點(diǎn)O,以指向水下機(jī)器人的艏向方向?yàn)閤軸正向,以指向水下機(jī)器人的右舷方向?yàn)閥軸正向,以指向水下機(jī)器人的底部方向?yàn)閦軸正向,且x軸、y軸、z軸符合右手螺旋定則的坐標(biāo)系;
水下機(jī)器人艏向控制系統(tǒng)的控制律為:
其中,為艏向控制系統(tǒng)的控制律的第一個(gè)待調(diào)節(jié)控制增益,為艏向控制系統(tǒng)的控制律的第二個(gè)待調(diào)節(jié)控制增益;為艏向偏差,z2=α-r為中間偏差,為期望艏向角,為實(shí)際艏向角,為中間虛擬控制量;
步驟二、建立由第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)和第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)組成的雙BP神經(jīng)網(wǎng)絡(luò)模型一,其中,第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)與第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相同;
第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)向量為St={s1u,s2u},其中,s1u為t時(shí)刻速度的偏差,s2u為t時(shí)刻速度的偏差變化率,輸出為動(dòng)作值集合k′u,再利用ε貪婪策略從動(dòng)作值集合k′u中選擇出當(dāng)前狀態(tài)向量對(duì)應(yīng)的最優(yōu)動(dòng)作值k″u;
第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)向量為:當(dāng)前狀態(tài)St執(zhí)行最優(yōu)動(dòng)作at后所得到的下一時(shí)刻的狀態(tài)St+1,第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)根據(jù)輸入的狀態(tài)向量確定輸出;
步驟三、第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)輸出的實(shí)際Q值為Qm(St,at),第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)輸出的目標(biāo)Q值為第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)在當(dāng)前狀態(tài)St下選擇最優(yōu)動(dòng)作at并執(zhí)行后得到的獎(jiǎng)賞值為rt+1(St+1,a),利用Qm(St,at)、和rt+1(St+1,a)來計(jì)算TD誤差,再利用計(jì)算出的TD誤差對(duì)第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;
每個(gè)時(shí)刻對(duì)應(yīng)的狀態(tài)動(dòng)作樣本對(duì)均存入經(jīng)驗(yàn)樣本池,在第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的空閑時(shí)間,從經(jīng)驗(yàn)樣本池中隨機(jī)抽取固定數(shù)量的狀態(tài)動(dòng)作樣本對(duì),利用抽取的狀態(tài)動(dòng)作樣本對(duì)對(duì)每經(jīng)過N個(gè)時(shí)刻后,第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)對(duì)第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行復(fù)制,實(shí)現(xiàn)對(duì)第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)和第一目標(biāo)BP神經(jīng)網(wǎng)絡(luò)參數(shù)的更新;
步驟四、每個(gè)時(shí)刻的狀態(tài)向量依次輸入第一當(dāng)前BP神經(jīng)網(wǎng)絡(luò)后,利用步驟二中每個(gè)時(shí)刻的狀態(tài)向量對(duì)應(yīng)的最優(yōu)動(dòng)作值,計(jì)算出在每個(gè)時(shí)刻速度控制系統(tǒng)的控制律的待調(diào)節(jié)控制增益ku;
步驟五、建立由第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)和第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)組成的雙BP神經(jīng)網(wǎng)絡(luò)模型二,其中,第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)與第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相同;
第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)向量為其中,為t時(shí)刻偏航角的偏差,為t時(shí)刻偏航角的偏差變化率,為t時(shí)刻水下機(jī)器人實(shí)時(shí)速度,輸出為動(dòng)作值集合和再利用ε貪婪策略從動(dòng)作值集合和中選擇出當(dāng)前狀態(tài)向量對(duì)應(yīng)的最優(yōu)動(dòng)作值和
第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)向量為:當(dāng)前狀態(tài)S′t執(zhí)行最優(yōu)動(dòng)作a′t后所得到的下一時(shí)刻的狀態(tài)S′t+1,第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)根據(jù)輸入的狀態(tài)向量確定輸出;
步驟六、第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)輸出的實(shí)際Q值為Qm(S′t,a′t),第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)輸出的目標(biāo)Q值為第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)在當(dāng)前狀態(tài)S′t下選擇最優(yōu)動(dòng)作a′t并執(zhí)行后得到的獎(jiǎng)賞值為rt+1(S′t+1,a),利用Qm(S′t,a′t)、和rt+1(S′t+1,a)來計(jì)算TD誤差,再利用計(jì)算出的TD誤差對(duì)第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;
每個(gè)時(shí)刻對(duì)應(yīng)的狀態(tài)動(dòng)作樣本對(duì)均存入經(jīng)驗(yàn)樣本池,在第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的空閑時(shí)間,從經(jīng)驗(yàn)樣本池中隨機(jī)抽取固定數(shù)量的狀態(tài)動(dòng)作樣本對(duì),利用抽取的狀態(tài)動(dòng)作樣本對(duì)對(duì)第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)繼續(xù)進(jìn)行訓(xùn)練;
且每經(jīng)過N個(gè)時(shí)刻后,第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)對(duì)第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行復(fù)制,實(shí)現(xiàn)對(duì)第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)和第二目標(biāo)BP神經(jīng)網(wǎng)絡(luò)參數(shù)的更新;
步驟七、當(dāng)每個(gè)時(shí)刻的狀態(tài)向量依次輸入第二當(dāng)前BP神經(jīng)網(wǎng)絡(luò)后,利用步驟五中每個(gè)時(shí)刻的狀態(tài)向量對(duì)應(yīng)的最優(yōu)動(dòng)作值,計(jì)算出在每個(gè)時(shí)刻艏向控制系統(tǒng)的控制律的待調(diào)節(jié)控制增益和
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087510.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 山藥低分子提取物與制備方法
- 一種DNA?Marker及其制備工藝
- 一種調(diào)整終端工作帶寬的方法及裝置
- 一種資源指示的方法、設(shè)備及系統(tǒng)
- 一種通信方法、用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和通信系統(tǒng)
- 一種具有熒光標(biāo)記的核酸分型標(biāo)準(zhǔn)物及其制備方法和應(yīng)用
- 聚-γ-谷氨酸的生產(chǎn)方法
- 罌粟DNA條形碼測(cè)序及分子鑒定方法
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





