[發(fā)明專利]基于強化學(xué)習(xí)的關(guān)節(jié)模組不等式約束最優(yōu)魯棒控制方法有效
| 申請?zhí)枺?/td> | 202110990167.7 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113703319B | 公開(公告)日: | 2023-07-28 |
| 發(fā)明(設(shè)計)人: | 甄圣超;王君;劉曉黎 | 申請(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G06N3/092;G06N3/048;G06N3/082;G06N3/06;G06N3/006 |
| 代理公司: | 合肥金安專利事務(wù)所(普通合伙企業(yè)) 34114 | 代理人: | 吳娜 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強化 學(xué)習(xí) 關(guān)節(jié) 模組 不等式 約束 最優(yōu) 魯棒控制 方法 | ||
本發(fā)明涉及基于強化學(xué)習(xí)的關(guān)節(jié)模組不等式約束最優(yōu)魯棒控制方法,包括:在仿真平臺上搭建關(guān)節(jié)模組虛擬仿真環(huán)境,構(gòu)建強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型;初始化關(guān)節(jié)模組虛擬仿真環(huán)境;調(diào)整強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中多層神經(jīng)元之間的連接權(quán)值;隨機失活強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的一部分神經(jīng)元,輸出關(guān)節(jié)模組的控制參數(shù)信息;收集當前關(guān)節(jié)模組虛擬仿真環(huán)境下的訓(xùn)練數(shù)據(jù)集;將強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的最優(yōu)參數(shù)輸入到不等式約束最優(yōu)魯棒控制器內(nèi),將電機運行軌跡約束在一個指定的范圍內(nèi)并顯著提高其控制精度。本發(fā)明采用粒子群最優(yōu)算法來調(diào)整強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中多層神經(jīng)元之間的連接權(quán)值,可以顯著提高電機控制精度且能將電機的運行軌跡約束在一個指定的范圍內(nèi)。
技術(shù)領(lǐng)域
本發(fā)明涉及機器人控制技術(shù)領(lǐng)域,尤其是一種基于強化學(xué)習(xí)的關(guān)節(jié)模組不等式約束最優(yōu)魯棒控制方法。
背景技術(shù)
關(guān)節(jié)模組已經(jīng)廣泛得應(yīng)用于中小型電力驅(qū)動領(lǐng)域,如航空航天、機器人、電動汽車等領(lǐng)域。有關(guān)于它的高性能控制是一個多變量、高度耦合和時變的非線性系統(tǒng),傳統(tǒng)控制方法中需要得到電機精確的系統(tǒng)參數(shù)。然而,結(jié)構(gòu)不確定性,如系統(tǒng)參數(shù)變化、系統(tǒng)建模不足,和非結(jié)構(gòu)不確定性,如負載轉(zhuǎn)矩擾動、控制目標多樣性等,可能會影響關(guān)節(jié)模組特別是永磁同步電機系統(tǒng)的伺服性能。提高關(guān)節(jié)模組的魯棒性和動態(tài)性能是解決系統(tǒng)不確定性的有效方法。
現(xiàn)有的針對關(guān)節(jié)模組的控制方法主要包括以下兩個方面:第一,在控制器搭建完畢后,參數(shù)需要從零開始盲目調(diào)節(jié),并不知道電機控制的最優(yōu)閾值;第二,現(xiàn)有魯棒控制方法不能夠很好的將關(guān)節(jié)模組控制在一個指定范圍內(nèi),且精確度不夠,可能會使關(guān)節(jié)模組運行偏離軌跡,在現(xiàn)實的生產(chǎn)生活中可能會因此導(dǎo)致一些重大事故。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練來得到電機控制參數(shù)的最優(yōu)閾值,并通過模糊方法來消除電機的非線性和不確定性,將得到的參數(shù)輸入到不等式約束最優(yōu)魯棒控制器中,將電機運行軌跡約束在一個指定的范圍內(nèi)并顯著提高其控制精度的基于強化學(xué)習(xí)的關(guān)節(jié)模組不等式約束最優(yōu)魯棒控制方法。
為實現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:一種基于強化學(xué)習(xí)的關(guān)節(jié)模組不等式約束最優(yōu)魯棒控制方法,該方法包括下列順序的步驟:
(1)首先在仿真平臺上搭建具備神經(jīng)網(wǎng)絡(luò)訓(xùn)練能力的關(guān)節(jié)模組虛擬仿真環(huán)境,構(gòu)建具備Dropout隨機失活神經(jīng)元方法的強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型;
(2)初始化關(guān)節(jié)模組虛擬仿真環(huán)境;
(3)采用改進的粒子群優(yōu)化算法調(diào)整強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中多層神經(jīng)元之間的連接權(quán)值,實現(xiàn)面向關(guān)節(jié)模組軌跡跟蹤控制的強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的自適應(yīng)學(xué)習(xí);
(4)隨機失活強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的一部分神經(jīng)元,將預(yù)先設(shè)定的干擾參數(shù)輸入到每個關(guān)節(jié)模組虛擬仿真環(huán)境中,控制強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)合每個關(guān)節(jié)模組虛擬仿真環(huán)境,輸出關(guān)節(jié)模組的控制參數(shù)信息;
(5)判斷關(guān)節(jié)模組虛擬仿真環(huán)境訓(xùn)練終止條件,收集當前關(guān)節(jié)模組虛擬仿真環(huán)境下的訓(xùn)練數(shù)據(jù)集;
(6)將強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的最優(yōu)參數(shù)輸入到不等式約束最優(yōu)魯棒控制器內(nèi),首先通過模糊方法來消除電機的非線性和不確定性,再通過不等式約束將電機運行軌跡限制在一個指定的范圍內(nèi)并顯著提高其控制精度。
在步驟(1)中,所述強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)為全連接網(wǎng)絡(luò),包括兩個隱含層和一個池化層,每層包含256個節(jié)點,激活函數(shù)選擇Relu函數(shù),且通過Dropout隨機失活神經(jīng)元方法來防止過擬合現(xiàn)象。
所述步驟(2)初始化關(guān)節(jié)模組虛擬仿真環(huán)境包括初始化關(guān)節(jié)模組所在的仿真環(huán)境、初始化電機初始位置和負載重量以及擾動項。
所述步驟(3)包括以下步驟:
(3a)將多層神經(jīng)元之間的連接權(quán)值的選取問題轉(zhuǎn)化為最優(yōu)化問題,最優(yōu)化問題的目標函數(shù)即輸出向量與期望信號向量的范數(shù),如式(1)所示,期望信號即關(guān)節(jié)模組目標運行位置坐標,輸出向量即關(guān)節(jié)模組的實際運行位置:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110990167.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





