[發(fā)明專利]一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010087510.2 | 申請(qǐng)日: | 2020-02-11 |
| 公開(kāi)(公告)號(hào): | CN111176122B | 公開(kāi)(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 王卓;張佩;秦洪德;孫延超;鄧忠超;張宇昂;景銳潔;曹禹 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04;G05D1/10 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 時(shí)起磊 |
| 地址: | 150001 黑龍江*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bp 神經(jīng)網(wǎng)絡(luò) 學(xué)習(xí) 技術(shù) 水下 機(jī)器人 參數(shù) 自適應(yīng) 控制 方法 | ||
一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法,它屬于水下機(jī)器人控制器參數(shù)調(diào)節(jié)技術(shù)領(lǐng)域。本發(fā)明解決了傳統(tǒng)Q學(xué)習(xí)方法進(jìn)行控制器參數(shù)調(diào)節(jié)時(shí)的學(xué)習(xí)效率低,以及傳統(tǒng)反步法進(jìn)行控制器參數(shù)調(diào)節(jié)時(shí)存在的參數(shù)不易實(shí)時(shí)在線調(diào)整的問(wèn)題。本發(fā)明利用基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)算法與反步法相結(jié)合的方式實(shí)現(xiàn)對(duì)反步法控制器參數(shù)的自主在線調(diào)節(jié),以滿足控制參數(shù)能夠?qū)崟r(shí)在線調(diào)整的要求。同時(shí)由于引入了雙BP神經(jīng)網(wǎng)絡(luò)以及經(jīng)驗(yàn)回放池,其強(qiáng)大的擬合能力使得基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)參數(shù)自適應(yīng)反步控制方法能夠大大降低訓(xùn)練次數(shù),以提升學(xué)習(xí)效率,在訓(xùn)練較少次數(shù)的情況下達(dá)到更好的控制效果。本發(fā)明可以應(yīng)用于水下機(jī)器人控制器參數(shù)的調(diào)節(jié)。
技術(shù)領(lǐng)域
本發(fā)明屬于水下機(jī)器人控制器參數(shù)調(diào)節(jié)技術(shù)領(lǐng)域,具體涉及一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法。
背景技術(shù)
水下機(jī)器人作為海洋資源探測(cè)和海底任務(wù)執(zhí)行的重要工具和手段,其運(yùn)動(dòng)控制性能的好壞在很大程度上會(huì)影響任務(wù)完成的效果。目前,一些傳統(tǒng)常規(guī)控制器以魯棒性和可擴(kuò)展性強(qiáng)的特點(diǎn),在工業(yè)環(huán)境中得到了廣泛的應(yīng)用,但這些控制器通常不能得到最佳的調(diào)優(yōu),并不能達(dá)到令人滿意的性能,在實(shí)際應(yīng)用中,控制器的參數(shù)經(jīng)過(guò)人工頻繁調(diào)試后便固化在控制器中,無(wú)法適應(yīng)被控過(guò)程中環(huán)境的變化,如何對(duì)控制器參數(shù)進(jìn)行實(shí)時(shí)自主整定,以達(dá)到最優(yōu)控制性能成為一個(gè)突出的問(wèn)題。自適應(yīng)控制可以通過(guò)對(duì)對(duì)象特征以及輸入輸出量的在線觀測(cè),按照一定的性能指標(biāo)實(shí)現(xiàn)對(duì)控制器參數(shù)和性能的在線調(diào)節(jié),而強(qiáng)化學(xué)習(xí)可以通過(guò)與環(huán)境的不斷交互,積累經(jīng)驗(yàn)和知識(shí),在環(huán)境動(dòng)態(tài)和底層未知的情況下接收強(qiáng)化信號(hào),以此提高控制器的自適應(yīng)能力,兩者具有相通之處。
然而,傳統(tǒng)強(qiáng)化學(xué)習(xí)的學(xué)習(xí)機(jī)制依賴于Q值表,只能對(duì)離散的狀態(tài)和動(dòng)作空間進(jìn)行學(xué)習(xí),在進(jìn)行狀態(tài)和動(dòng)作空間劃分時(shí)勢(shì)必會(huì)導(dǎo)致Q值表過(guò)大,使得智能體在學(xué)習(xí)過(guò)程中會(huì)因無(wú)法遍歷所有狀態(tài)和動(dòng)作空間而無(wú)法收斂,因此傳統(tǒng)Q學(xué)習(xí)的學(xué)習(xí)效率較低。同時(shí),在利用傳統(tǒng)反步法進(jìn)行控制器參數(shù)的調(diào)節(jié)時(shí),存在著控制器參數(shù)不易進(jìn)行實(shí)時(shí)在線調(diào)整的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決傳統(tǒng)Q學(xué)習(xí)方法進(jìn)行控制器參數(shù)調(diào)節(jié)時(shí)的學(xué)習(xí)效率低,以及傳統(tǒng)反步法進(jìn)行控制器參數(shù)調(diào)節(jié)時(shí)存在的參數(shù)不易實(shí)時(shí)在線調(diào)整的問(wèn)題,而提出了一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法。
本發(fā)明為解決上述技術(shù)問(wèn)題采取的技術(shù)方案是:一種基于雙BP神經(jīng)網(wǎng)絡(luò)Q學(xué)習(xí)技術(shù)的水下機(jī)器人參數(shù)自適應(yīng)反步控制方法,該方法包括以下步驟:
步驟一、基于反步法分別設(shè)計(jì)水下機(jī)器人的速度控制系統(tǒng)和艏向控制系統(tǒng),再根據(jù)設(shè)計(jì)的速度控制系統(tǒng)以及艏向控制系統(tǒng)確定速度控制系統(tǒng)的控制律以及艏向控制系統(tǒng)的控制律;
水下機(jī)器人的速度控制系統(tǒng)為:
其中,m為水下機(jī)器人的質(zhì)量,和Xu|u|均為無(wú)量綱水動(dòng)力參數(shù),u為水下機(jī)器人縱向速度,|u|為u的絕對(duì)值,為水下機(jī)器人縱向加速度,τu為推進(jìn)器縱向推力,v為水下機(jī)器人橫向速度,r為水下機(jī)器人偏航角速度;
水下機(jī)器人速度控制系統(tǒng)的控制律為:
其中,ku為速度控制系統(tǒng)的控制律的待調(diào)節(jié)控制增益;
水下機(jī)器人的艏向控制系統(tǒng)為:
其中,為實(shí)際艏向角的一階導(dǎo)數(shù),為r的一階導(dǎo)數(shù),Nr、Nr|r|均為無(wú)量綱水動(dòng)力參數(shù),|r|為r的絕對(duì)值,τr為轉(zhuǎn)艏力矩,Iz為水下機(jī)器人繞運(yùn)動(dòng)坐標(biāo)系z(mì)軸的轉(zhuǎn)動(dòng)慣量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087510.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 山藥低分子提取物與制備方法
- 一種DNA?Marker及其制備工藝
- 一種調(diào)整終端工作帶寬的方法及裝置
- 一種資源指示的方法、設(shè)備及系統(tǒng)
- 一種通信方法、用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和通信系統(tǒng)
- 一種具有熒光標(biāo)記的核酸分型標(biāo)準(zhǔn)物及其制備方法和應(yīng)用
- 聚-γ-谷氨酸的生產(chǎn)方法
- 罌粟DNA條形碼測(cè)序及分子鑒定方法
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





