[發(fā)明專利]一種基于強化學習的無人艇異常工況自愈控制方法在審
| 申請?zhí)枺?/td> | 201910354486.1 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110109355A | 公開(公告)日: | 2019-08-09 |
| 發(fā)明(設計)人: | 王友清;周子天;王慧聰;周東華 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 重慶市信立達專利代理事務所(普通合伙) 50230 | 代理人: | 包曉靜 |
| 地址: | 266590 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 異常工況 自愈控制 自愈 控制技術領域 初始模型 海草 搜索 風浪 海上 天氣 恢復 探索 | ||
1.一種基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述基于強化學習的無人艇異常工況自愈控制方法包括:
第一步,初始模型的建立;
第二步,利用典型強化學習方法設計得到u;
第三步,u的訓練以及對于無人艇的補償;
第四步,實現(xiàn)無人艇異常工況自愈。
2.如權利要求1所述的基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述第一步的初始模型的建立具體包括:
根據以往的無人艇故障經驗數據,建立一個大體上的強化學習訓練模型。
3.如權利要求1所述的基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述第二步的利用典型強化學習方法設計得到u具體包括:
由于無人艇與環(huán)境的實時交互模型是未知的,第一步中建立的大體模型只是根據先前已有的數據建立的,用于對模型不斷修正的初始模型,對于u的設計使用時間差分的方法來得到修正的值函數u;時間差分方法結合了蒙特卡羅的采樣方法和動態(tài)規(guī)劃方法的利用后續(xù)狀態(tài)的值函數估計當前的值函數;
時間差分方法的值函數公式更新為:
u(St)←u(St)+α(Rt+1+γu(St+1)-u(St))
式中u(St)為在狀態(tài)時的值函數,γ為折扣因子,Rt+1+γu(St+1)為TD目標,δt=Rt+1+γu(St+1)-u(St)為TD偏差;
u(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]。
4.如權利要求1所述的基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述第三步的u的訓練以及對于無人艇的補償具體包括:
u的訓練采用TD(λ)的方法:
Ct(1)=Rt+1+γu(St+1)
Gt(2)=Rt+1+γR(St+2)+γ2u(St+1)
Ct(n)=Rt+1+γR(St+2)+…+γn-1R(St+n)+γnu(St+n)
u補償故障:
5.如權利要求1所述的基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述根據強化學習方法建立的訓練自愈模型的傳遞函數可以是狀態(tài)空間模型。
6.如權利要求5所述的基于強化學習的無人艇異常工況自愈控制方法,其特征在于,所述狀態(tài)空間模型算法為:
設計無人艇的動力學模型:
其中,v為船體運動狀態(tài)信息;為船體位置信息;u為主推進器及方向舵控制輸入;ω為外部擾動,M、N、G為適當維數的矩陣;
在發(fā)生故障時的動力學模型如下:
其中,v為船體運動狀態(tài)信息;為船體位置信息;u為主推進器及方向舵控制輸入;ω為外部擾動;f為故障信息,M、N、G、F為適當維數的矩陣。
7.一種應用權利要求1~5任意一項所述基于強化學習的無人艇異常工況自愈控制方法的無人艇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910354486.1/1.html,轉載請聲明來源鉆瓜專利網。





