[發明專利]交互強化學習方法在水下機器人中的應用在審
| 申請號: | 201811200110.7 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109491240A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 李光亮;何波;馮晨;林金瑩;張期磊 | 申請(專利權)人: | 中國海洋大學 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 266100 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 控制策略 強化學習 水下機器人 學習過程 在線學習 真實環境 學習控制策略 學習控制技術 極限學習機 方法提取 仿真環境 仿真建模 經驗知識 在線機器 自主控制 樣本數 應用 學習 改進 安全 | ||
本發明公開了交互強化學習方法在水下機器人中的應用,本發明所采用的技術方案是:首先,對AUV進行仿真建模,在仿真環境中AUV利用訓練者的經驗知識通過交互強化學習方法提取所有有用的信息,并初步學習控制策略,一旦訓練者認定AUV獲得足夠的知識并建立了一個安全的控制策略,用仿真學習得到的初始控制策略轉移到AUV,在真實環境中在線學習,采用AUV在線自主學習控制技術,繼續改進控制策略,作為AUV在真實環境中運行的控制策略。本發明的有益效果是采用最新提出的交互強化學習方法結合極限學習機等在線機器學習技術加速AUV自主學習過程,減少在線學習所需樣本數和學習過程中由于試錯產生的不必要的錯誤和損失,最終實現AUV的快速自主控制。
技術領域
本發明屬于機器人控制技術領域,涉及交互強化學習方法在水下機器人中的應用。
背景技術
自主式水下航行器(Autonomous Underwater Vehicle,AUV)要在復雜且不可預知水下環境中自主完成預定任務,精確可靠的控制是必不可少的。傳統的控制方法需要精確的數學模型或解決系統耦合性能力較差,雖然對于系統內部特性的變化和外部擾動的影響都具有一定的抑制能力,但是由于控制器參數是固定的,所以當系統內部特性變化或者當外部擾動的變化幅度很大時,系統的性能常常會大幅度下降甚至是不穩定,往往需要線下重新調整控制參數,不能實時地對不可預測的環境變化作出反應和調整。
與此相比,強化學習可以實現在線參數調整,在沒有精確地數學模型或耦合性較高的系統中,可以獲得良好的控制效果。但是,目前在傳統強化學習方法中,定義一個有效的獎賞函數并不是簡單的事,這需要控制器的設計人員憑領域知識定義,還需要經過多次調試才能完成。采用一個低效的獎賞函數會在很大程度上影響到最終的最優策略,并意味著控制器需要大量的學習樣本和時間去試錯和探索,尤其是在學習的初始階段,這很可能為AUV在線學習造成不必要的錯誤和損失。
發明內容
本發明提供交互強化學習方法在水下機器人中的應用,利用訓練者的經驗知識來提高AUV自主學習速度的技術,避免傳統強化學習方法繁瑣的調試和不必要的試錯;將離線獲得的策略作為AUV在實際環境中運行的初始控制策略,通過在線自主學習改進控制策略,提高穩定性。
為了實現上述目標,本發明所采用的技術方案如下:
首先,對AUV進行仿真建模,在仿真環境中AUV利用訓練者的經驗知識通過交互強化學習方法提取所有有用的信息,并初步學習控制策略,一旦訓練者認定AUV獲得足夠的知識并建立了一個安全的控制策略,就將仿真學習得到的初始控制策略轉移到AUV,在真實環境中在線學習,采用AUV在線自主學習控制技術,繼續改進控制策略,作為AUV在真實環境中運行的控制策略。
進一步,交互強化學習方法首先探測AUV在仿真環境中所處的狀態,根據當前的控制策略選擇并執行一個動作,訓練者觀察控制器在當前狀態下所選擇的動作,并根據自己的經驗知識評估其質量,控制器以此評估信號作為獎賞信號更新控制策略,直到訓練者認定控制器的策略足夠安全為止,最后將學習到的控制策略移植到AUV,作為AUV在真實環境中在線學習的初始控制策略。
進一步,離線仿真訓練所得的初始控制策略移植到AUV以后,控制器需要繼續在線自主學習,AUV探測數據并判斷當前所處的狀態,控制器依據離線獲得的初始控制策略選擇并執行動作,AUV依據預先定義的獎賞函數的環境獎賞信號更新控制策略,并判斷是否最優控制策略,若是最優控制策略,結束當前學習并執行相應動作;若不是,則重新進行此學習過程,直到達到最優控制策略為止,通過在線自主學習控制技術達到最優的控制效果。
附圖說明
圖1是交互強化學習方法加速AUV自主學習技術路線示意圖;
圖2是AUV在線自主學習控制技術路線示意圖。
具體實施方式
下面結合具體實施方式對本發明進行詳細說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國海洋大學,未經中國海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811200110.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:調節儀
- 下一篇:一種針對機動目標的無人機魯棒化跟蹤方法





