[發明專利]基于策略迭代的移動機器人軌跡跟蹤控制方法有效
| 申請號: | 202110161247.1 | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN112965487B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 朱俊威;張恒;董子源;吳珺;張文安 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 策略 移動 機器人 軌跡 跟蹤 控制 方法 | ||
一種基于策略迭代的移動機器人軌跡跟蹤控制方法,對于已知的移動機器人系統,先搭建兩個神經網路。分別為actor神經網絡,和critic神經網絡,其中actor神經網絡用于系統控制策略的評估與改進,critic神經網絡主要用來計算當前控制策略下的價值函數,用此價值函數評估當前策略。包括以下步驟:1)建立移動機器人的運動學模型;2)設計Actor神經網絡;3)設計Critic神經網絡;4)設計Actor/Critic結構的在線算法。本發明基于數據驅動的控制算法,利用價值函數對其策略函數進行評估,保證學習的過程同時兼顧價值函數和策略函數,可以較好實現對移動機器人的軌跡跟蹤。
技術領域
本發明屬于強化學習領域,具體提供了一種基于策略迭代的移動機器人軌跡跟蹤控制方法,是一種智能控制方法。
背景技術
在現代科技飛速發展的今天,移動機器人以其小巧靈活,操作簡單,靈活多樣等特點,始終處于科技的前沿,一直引領著高新技術的方向。隨著人工智能和計算機大數據時代的到來,人類總是期望移動機器人能夠具有更加強大的自主化能力,以代替我們在更多的鄰域完成更加復雜危險的操作任務,為實現這一目標,其核心技術就是需要移動機器人具有優良的運動規劃能力,使機器人在無人干擾的條件下也可以在未知的環境中有目的,準確高效的工作。
目前,被廣泛應用的運動規劃算法主要是基于模型的A*算法、D*算法等。但基于模型的算法缺點是系統建模比較困難、當模型不精確時,可能起反作用。
發明內容
基于上述問題,本發明提供了一種基于策略迭代的移動機器人軌跡跟蹤控制方法,具體地說,先搭建一個Actor神經網絡,通過策略迭代實現控制策略的更新;接著設計一個Critic神經網絡,通過策略迭代得到當前控制策略下的最優價值函數,用所得到的最優價值函數評估當前控制策略,依次進行多次循環最后得到最優控制策略,實驗結果驗證了該方法的有效性。
本發明為解決上述技術問題提供了如下技術方案:
一種基于策略迭代的移動機器人軌跡跟蹤控制方法,包括以下步驟:
步驟1)建立移動機器人的運動學模型
令u=[1 va wa]T其中(x1,x2),x3分別為機器人姿態與虛擬參考信號之間的位置誤差和方向誤差,va,wa分別表示機器人的線速度和角速度,vr、wr分別為參考位置的線速度和角速度;
步驟2),設計Actor神經網絡,過程如下:
2.1)考慮輸入動力系統中的非線性時不變仿射,如式(2)所示:
設系統動力學f(x),g(x)已知,對于任何容許的輸入u,定義其代價函數,如式(3)所示:
那么公式(3)的無窮小版本就是所謂的非線性Lyapunov方程,如式(4)所示:
式中,▽VXU表示值函數Vu相對于x的偏導數。公式(4)是一個非線性系統的Lyapunov方程,在給定控制器u(x)∈Ψ(Ω)的情況下,可以求解與其相關的值函數Vu(x);設定u(x)是允許的控制策略,如果Vu(x)滿足(4),則Vu(x)是具有控制策略u(x)的系統(2)的Lyapunov函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110161247.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種3D曲屏保護膜及其制備方法
- 下一篇:一種具有治療頸椎病功能的太赫茲裝置





