[發(fā)明專(zhuān)利]基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110161247.1 | 申請(qǐng)日: | 2021-02-05 |
| 公開(kāi)(公告)號(hào): | CN112965487B | 公開(kāi)(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計(jì))人: | 朱俊威;張恒;董子源;吳珺;張文安 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G05D1/02 | 分類(lèi)號(hào): | G05D1/02 |
| 代理公司: | 杭州斯可睿專(zhuān)利事務(wù)所有限公司 33241 | 代理人: | 王利強(qiáng) |
| 地址: | 310014 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 策略 移動(dòng) 機(jī)器人 軌跡 跟蹤 控制 方法 | ||
1.一種基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法,其特征在于,所述方法包括以下步驟:
步驟1)建立移動(dòng)機(jī)器人的運(yùn)動(dòng)學(xué)模型
令u=[1 va wa]T
其中(x1,x2),x3分別為機(jī)器人姿態(tài)與虛擬參考信號(hào)之間的位置誤差和方向誤差,va,wa分別表示機(jī)器人的線速度和角速度,vr、wr分別為參考位置的線速度和角速度;
步驟2),設(shè)計(jì)Actor神經(jīng)網(wǎng)絡(luò),過(guò)程如下;
2.1)考慮輸入動(dòng)力系統(tǒng)中的非線性時(shí)不變仿射,如式(2)所示:
設(shè)系統(tǒng)動(dòng)力學(xué)f(x),g(x)已知,對(duì)于任何容許的輸入u,定義其代價(jià)函數(shù),如式(3)所示:
那么公式(3)的無(wú)窮小版本為非線性Lyapunov函數(shù),如式(4)所示:
式中,表示值函數(shù)Vu相對(duì)于x的偏導(dǎo)數(shù),公式(4)是一個(gè)非線性系統(tǒng)的Lyapunov函數(shù),在給定控制器u(x)∈Ψ(Ω)的情況下,求解與其相關(guān)的代價(jià)函數(shù)Vu(x);設(shè)定u(x)是允許的控制策略,如果Vu(x)滿(mǎn)足公式(4),則Vu(x)是具有控制策略u(píng)(x)的連續(xù)時(shí)間系統(tǒng)(2)的Lyapunov函數(shù);
最優(yōu)控制問(wèn)題表述為:給定連續(xù)時(shí)間系統(tǒng)(2),利用控制策略和代價(jià)函數(shù)(3),找到一個(gè)可容許的控制策略,使得與連續(xù)時(shí)間系統(tǒng)(2)相關(guān)的代價(jià)函數(shù)(3)最小,則最優(yōu)成本函數(shù)V*(x)定義為
假設(shè)公式(5)右邊的最小值存在且唯一,則給定問(wèn)題的最優(yōu)控制函數(shù)為
2.2)策略評(píng)估
對(duì)于已求出的ui(x),通過(guò)公式(7)求出當(dāng)前策略下的代價(jià)函數(shù)Vu(i)x(t),用Vu(i)x(t)對(duì)當(dāng)前的策略進(jìn)行評(píng)估;
2.3)策略改進(jìn)
使用公式(8)對(duì)策略進(jìn)行改進(jìn)
但為了保證策略迭代算法的收斂性,需要給系統(tǒng)一個(gè)初始容許策略u(píng)(0)∈Ψ(Ω);
步驟3)設(shè)計(jì)Critic神經(jīng)網(wǎng)絡(luò),過(guò)程如下:
3.1)代價(jià)函數(shù)的神經(jīng)網(wǎng)絡(luò)逼近
為了求解公式(7),使用神經(jīng)網(wǎng)絡(luò)類(lèi)型的結(jié)構(gòu)來(lái)獲得任何x∈Ω的代價(jià)函數(shù)的近似值,由于普遍逼近性質(zhì),神經(jīng)網(wǎng)絡(luò)是在緊集上逼近光滑函數(shù)的自然候選,因此,對(duì)于x∈Ω,代價(jià)函數(shù)Vu(i)(x)由公式(9)表示:
公式(9)看作是一個(gè)隱藏層上有L個(gè)神經(jīng)元的神經(jīng)網(wǎng)絡(luò),激活函數(shù)φj(x)∈C1(Ω),φj(0)=0,是激活函數(shù)的向量,表示輸出層的權(quán)重,其值求解如式(10)所示,其中是權(quán)重向量,輸出層神經(jīng)元具有線性激活函數(shù),隱藏層的權(quán)值都等于1,在訓(xùn)練過(guò)程中不會(huì)改變;
步驟4)Actor/Critic結(jié)構(gòu)的在線算法。
2.如權(quán)利要求1所述的一種基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法,其特征在于,所述步驟4)的過(guò)程如下:先初始化控制策略u(píng)(0),然后在感興趣區(qū)域沿狀態(tài)軌跡收集足夠數(shù)量的數(shù)據(jù)點(diǎn)后,實(shí)時(shí)獲得由公式(10)給出的權(quán)值W;當(dāng)在兩個(gè)連續(xù)步驟中評(píng)估的系統(tǒng)性能之間的誤差小于指定的閾值時(shí),迭代將停止;當(dāng)這個(gè)誤差大于上述閾值時(shí),表明系統(tǒng)動(dòng)力學(xué)發(fā)生了變化,Critic將再次決定開(kāi)始調(diào)整Actor參數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110161247.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽(tīng)系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 移動(dòng)臺(tái),基站,移動(dòng)通信系統(tǒng),移動(dòng)通信與移動(dòng)通信程序
- 移動(dòng)通信系統(tǒng)、移動(dòng)終端以及移動(dòng)通信方法
- 移動(dòng)支付裝置、移動(dòng)終端POS以及移動(dòng)終端
- 移動(dòng)控制裝置、移動(dòng)體、移動(dòng)體系統(tǒng)、移動(dòng)控制方法及程序
- 移動(dòng)終端后蓋、移動(dòng)終端殼體及移動(dòng)終端
- 移動(dòng)平臺(tái)的輔助移動(dòng)方法、移動(dòng)裝置及移動(dòng)平臺(tái)
- 自移動(dòng)設(shè)備移動(dòng)方法及自移動(dòng)設(shè)備
- 移動(dòng)輪(支撐移動(dòng))
- 移動(dòng)房屋(移動(dòng)酒店)
- 移動(dòng)控制方法、移動(dòng)裝置及移動(dòng)平臺(tái)





