[發(fā)明專(zhuān)利]基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法有效

申請(qǐng)?zhí)枺?/td>	202110161247.1	申請(qǐng)日：	2021-02-05
公開(kāi)（公告）號(hào)：	CN112965487B	公開(kāi)（公告）日：	2022-06-17
發(fā)明（設(shè)計(jì)）人：	朱俊威;張恒;董子源;吳珺;張文安	申請(qǐng)（專(zhuān)利權(quán)）人：	浙江工業(yè)大學(xué)
主分類(lèi)號(hào)：	G05D1/02	分類(lèi)號(hào)：	G05D1/02
代理公司：	杭州斯可睿專(zhuān)利事務(wù)所有限公司 33241	代理人：	王利強(qiáng)
地址：	310014 浙江省***	國(guó)省代碼：	浙江;33
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	基于策略移動(dòng) 機(jī)器人軌跡跟蹤控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【權(quán)利要求書(shū)】：

1.一種基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法，其特征在于，所述方法包括以下步驟：

步驟1)建立移動(dòng)機(jī)器人的運(yùn)動(dòng)學(xué)模型

令u＝[1 v_a w_a]^T

其中(x₁，x₂)，x₃分別為機(jī)器人姿態(tài)與虛擬參考信號(hào)之間的位置誤差和方向誤差，v_a，w_a分別表示機(jī)器人的線速度和角速度，v_r、w_r分別為參考位置的線速度和角速度；

步驟2)，設(shè)計(jì)Actor神經(jīng)網(wǎng)絡(luò)，過(guò)程如下；

2.1)考慮輸入動(dòng)力系統(tǒng)中的非線性時(shí)不變仿射，如式(2)所示：

設(shè)系統(tǒng)動(dòng)力學(xué)f(x),g(x)已知，對(duì)于任何容許的輸入u，定義其代價(jià)函數(shù)，如式(3)所示：

那么公式(3)的無(wú)窮小版本為非線性Lyapunov函數(shù)，如式(4)所示：

式中，表示值函數(shù)V^u相對(duì)于x的偏導(dǎo)數(shù)，公式(4)是一個(gè)非線性系統(tǒng)的Lyapunov函數(shù)，在給定控制器u(x)∈Ψ(Ω)的情況下，求解與其相關(guān)的代價(jià)函數(shù)V^u(x)；設(shè)定u(x)是允許的控制策略，如果V^u(x)滿(mǎn)足公式(4)，則V^u(x)是具有控制策略u(píng)(x)的連續(xù)時(shí)間系統(tǒng)(2)的Lyapunov函數(shù)；

最優(yōu)控制問(wèn)題表述為：給定連續(xù)時(shí)間系統(tǒng)(2)，利用控制策略和代價(jià)函數(shù)(3)，找到一個(gè)可容許的控制策略，使得與連續(xù)時(shí)間系統(tǒng)(2)相關(guān)的代價(jià)函數(shù)(3)最小，則最優(yōu)成本函數(shù)V*(x)定義為

假設(shè)公式(5)右邊的最小值存在且唯一，則給定問(wèn)題的最優(yōu)控制函數(shù)為

2.2)策略評(píng)估

對(duì)于已求出的uⁱ(x)，通過(guò)公式(7)求出當(dāng)前策略下的代價(jià)函數(shù)V^u(i)x(t)，用V^u(i)x(t)對(duì)當(dāng)前的策略進(jìn)行評(píng)估；

2.3)策略改進(jìn)

使用公式(8)對(duì)策略進(jìn)行改進(jìn)

但為了保證策略迭代算法的收斂性，需要給系統(tǒng)一個(gè)初始容許策略u(píng)(0)∈Ψ(Ω)；

步驟3)設(shè)計(jì)Critic神經(jīng)網(wǎng)絡(luò)，過(guò)程如下：

3.1)代價(jià)函數(shù)的神經(jīng)網(wǎng)絡(luò)逼近

為了求解公式(7)，使用神經(jīng)網(wǎng)絡(luò)類(lèi)型的結(jié)構(gòu)來(lái)獲得任何x∈Ω的代價(jià)函數(shù)的近似值，由于普遍逼近性質(zhì)，神經(jīng)網(wǎng)絡(luò)是在緊集上逼近光滑函數(shù)的自然候選，因此，對(duì)于x∈Ω，代價(jià)函數(shù)V^u(i)(x)由公式(9)表示：

公式(9)看作是一個(gè)隱藏層上有L個(gè)神經(jīng)元的神經(jīng)網(wǎng)絡(luò)，激活函數(shù)φ_j(x)∈C¹(Ω)，φ_j(0)＝0,是激活函數(shù)的向量，表示輸出層的權(quán)重，其值求解如式(10)所示，其中是權(quán)重向量，輸出層神經(jīng)元具有線性激活函數(shù)，隱藏層的權(quán)值都等于1，在訓(xùn)練過(guò)程中不會(huì)改變；

步驟4)Actor/Critic結(jié)構(gòu)的在線算法。

2.如權(quán)利要求1所述的一種基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法，其特征在于，所述步驟4)的過(guò)程如下：先初始化控制策略u(píng)(0)，然后在感興趣區(qū)域沿狀態(tài)軌跡收集足夠數(shù)量的數(shù)據(jù)點(diǎn)后，實(shí)時(shí)獲得由公式(10)給出的權(quán)值W；當(dāng)在兩個(gè)連續(xù)步驟中評(píng)估的系統(tǒng)性能之間的誤差小于指定的閾值時(shí)，迭代將停止；當(dāng)這個(gè)誤差大于上述閾值時(shí)，表明系統(tǒng)動(dòng)力學(xué)發(fā)生了變化，Critic將再次決定開(kāi)始調(diào)整Actor參數(shù)。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江工業(yè)大學(xué)，未經(jīng)浙江工業(yè)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110161247.1/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：一種3D曲屏保護(hù)膜及其制備方法
下一篇：一種具有治療頸椎病功能的太赫茲裝置

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G05 控制；調(diào)節(jié)
G05D 非電變量的控制或調(diào)節(jié)系統(tǒng)
G05D1-00 陸地、水上、空中或太空中的運(yùn)載工具的位置、航道、高度或姿態(tài)的控制，例如自動(dòng)駕駛儀
G05D1-02 .二維的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿態(tài)的控制，即搖擺、俯仰角或偏航角的控制
G05D1-10 .三維的位置或航道的同時(shí)控制
G05D1-12 .尋找目標(biāo)的控制

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】