[發明專利]交互強化學習方法在水下機器人中的應用在審
| 申請號: | 201811200110.7 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109491240A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 李光亮;何波;馮晨;林金瑩;張期磊 | 申請(專利權)人: | 中國海洋大學 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 266100 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 控制策略 強化學習 水下機器人 學習過程 在線學習 真實環境 學習控制策略 學習控制技術 極限學習機 方法提取 仿真環境 仿真建模 經驗知識 在線機器 自主控制 樣本數 應用 學習 改進 安全 | ||
1.交互強化學習方法在水下機器人中的應用,其特征在于:
首先對AUV進行仿真建模,在仿真環境中AUV利用訓練者的經驗知識通過交互強化學習方法提取所有有用的信息,并初步學習控制策略,一旦訓練者認定AUV獲得足夠的知識并建立了一個安全的控制策略,用仿真學習得到的初始控制策略轉移到AUV,在真實環境中在線學習,采用AUV在線自主學習控制技術,繼續改進控制策略,作為AUV在真實環境中運行的控制策略。
2.按照權利要求1所述交互強化學習方法在水下機器人中的應用,其特征在于:
所述交互強化學習方法首先探測在仿真環境中所處的狀態,根據當前的控制策略選擇并執行一個動作,訓練者觀察控制器在當前狀態下所選擇的動作,并根據自己的經驗知識評估其質量,控制器以此評估信號作為獎賞信號更新控制策略,直到訓練者認定控制器的策略足夠安全為止,最后將學習到的控制策略移植到AUV,作為AUV在真實環境中在線學習的初始控制策略。
3.按照權利要求1所述交互強化學習方法在水下機器人中的應用,其特征在于:
所述AUV在線自主學習控制技術是移植離線控制策略到AUV,AUV探測當前狀態,控制器選擇并執行動作,AUV探測數據并判斷狀態,AUV接收預定義獎賞信號,更新控制策略,判斷是否最優控制策略,否則返回AUV探測當前狀態,是則結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國海洋大學,未經中國海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811200110.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:調節儀
- 下一篇:一種針對機動目標的無人機魯棒化跟蹤方法





