[發明專利]基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法有效
| 申請號: | 202110236703.4 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113156940B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 李躍;劉志勇;姚宇龍;段桂英 | 申請(專利權)人: | 河北工業職業技術學院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 石家莊開言知識產權代理事務所(普通合伙) 13127 | 代理人: | 李志民 |
| 地址: | 050091 河*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 好奇心 貪婪 獎勵 函數 機器人 路徑 規劃 方法 | ||
本發明基于好奇心?貪婪獎勵函數的機器人路徑規劃的方法,包括貪心獎勵模塊、好奇心獎勵模塊和獎勵融合模塊。好奇心獎勵模塊隨著對環境的熟悉程度動態調整探索策略,主動探索不熟悉的區域。貪心獎勵模塊更快的探索到有效信息,避開障礙物區域,引導機器人進入正確探索方向。獎勵融合模塊對貪心獎勵模塊、好奇心獎勵模塊進行獎勵融合,讓機器人懷著好奇心探索工作環境,貪心的向任務點靠近,在不同的規劃階段得到更準確有效的獎勵值,提升機器人路徑規劃能力。本發明通過好奇心獎勵函數、貪心獎勵函數和獎勵融合函數,引導機器人進入正確的探索方向,融合兩種獎勵函數,在不同的規劃階段得到更準確有效的獎勵值,有助于提高機器人路徑規劃能力。
技術領域
本發明屬于智能機器人技術領域,涉及一種基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法。
背景技術
智能機器人的應用十分廣泛,其中服務型機器人可以用于醫療、家政和教育娛樂等。工業型機器人可以用于傳統工業、航空航天、軍事和搶險救災等等。而路徑規劃不僅是機器人的基本功能之一,同時也是機器人不可或缺的能力之一。機器人的工作環境往往十分復雜并且具有非結構化的特點,因此機器人在工作時,特別需要擁有良好的路徑規劃能力去應對各種各樣的工作環境。隨著時代的進步,機器人工作環境的非結構化程度逐步加深,這就更加迫切的需要機器人擁有良好的路徑規劃能力。良好的路徑規劃能力有助于幫助智能機器人在其他領域的發展與應用。
深度強化學習是人工智能領域的一個新的研究熱點,具有廣泛的應用前景。它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,并能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制。深度強化學習作為一種解決序列決策的學習方法,通過不斷優化控制策略,能夠建立一個對環境有更高層次理解的自治系統,學得最優策略。
在基于深度強化學習的機器人應用不斷增多的同時,機器人需要面對的環境也日趨復雜和多變,這就需要基于深度強化學習的機器人擁有良好的軌跡規劃能力。
在機器人軌跡規劃任務中,工作環境所能提供的獎勵十分稀疏,往往只有機器人到達預先指定的目標狀態時才能得到反饋。傳統的深度強化學習方法應用于軌跡規劃這一任務時,機器人常常處于一種得不到任何獎勵的狀態。缺乏有效反饋的機器人無法準確的把握策略更新方向,導致學習效率低。
發明內容
本發明的目的是提供一種基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法,解決機器人軌跡規劃任務中由于獎勵稀疏導致的學習效率低下問題,引導機器人進入正確的探索方向,融合兩種獎勵函數,在不同的規劃階段得到更準確有效的獎勵值,讓機器人的探索策略能更加準確的更新,提高學習效率。
本發明的技術方案是:基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法,包括貪心獎勵模塊、好奇心獎勵模塊和獎勵融合模塊。好奇心獎勵模塊讓機器人在探索過程中擁有一種好奇心驅動,隨著對環境的熟悉程度動態調整探索策略,主動去探索不熟悉的區域,獲取好奇心獎勵值,提高探索效果,提高學習效率。貪心獎勵模塊根據機器人的工作環境,豐富環境中的有效獎勵空間,讓機器人能更快的探索到有效信息,避開障礙物區域,向目標區域靠攏,引導機器人進入正確的探索方向,獲取貪心獎勵值。獎勵融合模塊對貪心獎勵模塊、好奇心獎勵模塊進行合理的獎勵融合產生融合獎勵值,讓機器人懷著好奇心探索工作環境的同時,貪心的向任務點靠近,在不同的規劃階段得到更準確有效的獎勵值,提升機器人路徑規劃能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業職業技術學院,未經河北工業職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110236703.4/2.html,轉載請聲明來源鉆瓜專利網。





