[發(fā)明專利]一種基于強化學習的最優(yōu)輸出反饋控制器的導盲機器人有效
| 申請?zhí)枺?/td> | 202011033850.3 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112130570B | 公開(公告)日: | 2023-03-28 |
| 發(fā)明(設計)人: | 陳剛;林卓龍 | 申請(專利權(quán))人: | 重慶大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學習 最優(yōu) 輸出 反饋 控制器 機器人 | ||
1.一種基于強化學習的最優(yōu)輸出反饋控制器的導盲機器人,其特征在于:包括底層硬件層、感知層和策略層;
采用分層控制,基于ROS機器人操作系統(tǒng),采用4個伺服電機配套4個萬向輪的輪式機器人;
底層用于完成機器人本體的硬件平臺搭建;
其中DSP作為底層的控制器,用于采集陀螺儀和里程計信息,并且控制伺服電機的運動;
感知層和策略層的PC用于感知層和策略層的信息采集與計算;
所述導盲機器人的動態(tài)模型為:
其中是不可測系統(tǒng)狀態(tài)向量,/是系統(tǒng)的控制輸入,y(t)是系統(tǒng)唯一輸出;
現(xiàn)假定f(0)=0,f(x)是未知的且滿足||f(x)||≤bf||x||,bf是一個常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一個常量;
定義導盲機器人系統(tǒng)的代價函數(shù):
其中,Q(y(τ))=y(tǒng)T(τ)Qy(τ)是正定且連續(xù)可微的;U(u(τ))是被積函數(shù);考慮系統(tǒng)的輸入受限,定義以下一個非二次性能函數(shù):
其中,β(·)=tanh(·),λ是飽和有界的;R=diag(r1,r2,…,rm)>0是對角型;
通過設置基于輸出反饋的神經(jīng)網(wǎng)絡觀測器,導盲機器人運行時,將實時狀態(tài)傳給設計的控制器進行處理后使系統(tǒng)穩(wěn)定;
系統(tǒng)狀態(tài)x(t)不可測,基于輸出反饋的狀態(tài)觀測器的動態(tài)模型如下:
由于系統(tǒng)動態(tài)模型fi(xi)的內(nèi)部函數(shù)未知,用神經(jīng)網(wǎng)絡來估計fi(xi):
其中是赫爾維茨矩陣;/為神經(jīng)網(wǎng)絡權(quán)重,且||ωoi||≤||ωomi||;為神經(jīng)網(wǎng)絡激活函數(shù),且/
不妨將系統(tǒng)的動態(tài)模型寫成:
其中,n(x(t))=f(x)-A0ix(t),是赫爾維茨矩陣;
則觀測器的動態(tài)模型為:
其中,和/是所設計觀測器的狀態(tài);K是觀測器的增益,(A0i-KC)是赫爾維茨矩陣;系統(tǒng)滿足:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一個單位矩陣,P是一個對稱正定矩陣;
定義觀測器誤差為則:
其中,是構(gòu)造的神經(jīng)網(wǎng)絡觀測器的估計誤差;
選擇下面李雅普諾夫函數(shù):
將上面李雅普諾夫函數(shù)進行求導:
根據(jù)觀測器測得的誤差知:
將(8)(9)(12)帶入(11)得:
/
由于tr(ABT)=tr(BAT)=BAT,(13)改寫成:
因為ωoi、ξoi(xi)有界,式(15)整理為:
所以:
為使只需令/即只要滿足:
機器人的輸出代價函數(shù)寫成下面的形式:
其中,Qc=CTQC半正定的;
利用牛頓-萊布尼茨公式對式(18)中時間t求導得到貝爾曼方程:
聯(lián)立(3)(19)得:
定義Hamiltonian方程為:
令最優(yōu)代價函數(shù)為/
則根據(jù)(21)中Hamiltonian方程,得到如下HJB方程
當穩(wěn)定性條件時,得到如下最優(yōu)控制輸入:
由于HJB方程很難求解,在該算法中采用IRL的策略迭代來求解上述HJB方程;首先將(18)中的值函數(shù)寫成下面貝爾曼方程的形式:
得到下面基于策略迭代的在線IRL算法:
算法:基于策略迭代的在線IRL算法求解HJB方程
步驟1:利用下式解出J(i)(x(t))
步驟2:通過下式更新控制策略:
步驟3:令返回步驟1,直到J(i)x(t)收斂到最小值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學,未經(jīng)重慶大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011033850.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





