[發明專利]時序邏輯約束下基于強化學習的任務規劃方法及相關裝置在審
| 申請號: | 202111155540.3 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN114265674A | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 田戴熒;丁玉隆;蔣卓;崔金強;商成思;尉越 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 溫宏梅 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時序 邏輯 約束 基于 強化 學習 任務 規劃 方法 相關 裝置 | ||
本申請公開了一種時序邏輯約束下基于強化學習的任務規劃方法及相關裝置,方法包括將待規劃任務轉換為確定性有限自動機;基于確定性有限自動機及初始策略確定狀態動作軌跡;將狀態動作軌跡及各狀態動作對的外部獎勵輸入前饋神經網絡,通過前饋神經網絡輸出各狀態動作對的內部獎勵;基于各外部獎勵以及各內部獎勵確定初始策略的第一目標函數及第一返回值,并基于第一目標函數及第一返回值更新初始策略的策略參數以得到待規劃任務對應的目標策略。本申請通過注意力機制捕捉任務的時序特性,從而執行端在稀疏獎勵環境中能夠快速學習帶有時序關系的任務,從而能夠在不同環境中解決LTL約束下的稀疏獎勵問題,使得強化學習可以學習到最優策略。
技術領域
本申請涉及強化學習技術領域,特別涉及一種時序邏輯約束下基于強 化學習的任務規劃方法及相關裝置。
背景技術
現今線性時序邏輯(Linear Temporal Logic,LTL)受到了廣泛的關 注,并在廣泛的應用中表現出優異的性能。LTL的主要優勢在于其的表達能 力,允許定義超出傳統運動規劃范圍的各種高級行為。如文獻(Baier C, Katoen J P.Principles of modelchecking[M].MIT press,2008.)中 提出了許多在LTL約束下的策略生成方法。
許多學者的注意集中于強化學習在時序邏輯規劃中的應用,因為它能 夠處理更復雜的任務和更為不確定的環境。然而,在將線性時序邏輯LTL 與強化學習相結合時需要考慮線性時序邏輯LTL的歷史依賴性以及時序性 來構建適即時獎勵,否則會由于LTL任務的延遲獎勵以及獎勵的稀疏性, 導致強化學習方法將無法很快地收斂,甚至無法學習到最優策略。
為了解決上述問題,現有強化學習算法普遍是通過將LTL任務轉換為 確定性拉賓自動機(Deterministic Rabin Automaton)與環境構建乘積式 自動機來完成系統狀態的管理與轉移,并且為了獲得對智能體的即時獎勵, 計算表示接受狀態的可接受最大結束分量,所有可以轉換到可接受最大結 束分量的即時獎勵為1,否則為0。但是,采用這種方式的強化學習算法仍 然存在會生成最優策略的問題。
因而現有技術還有待改進和提高。
發明內容
本申請要解決的技術問題在于,針對現有技術的不足,提供一種時序 邏輯約束下基于強化學習的任務規劃方法及相關裝置。
為了解決上述技術問題,本申請實施例第一方面提供了一種時序邏輯 約束下基于強化學習的任務規劃方法,所述方法包括:
將待規劃任務轉換為確定性有限自動機;
基于所述確定性有限自動機以及所述待規劃任務對應的初始策略確定 所述待規劃任務對應的狀態動作軌跡,其中,所述動態動作軌跡中的每個 狀態動作對均對應有外部獎勵;
將所述狀態動作軌跡以及各狀態動作對各自對應的外部獎勵輸入預設 的前饋神經網絡,通過所述前饋神經網絡輸出各狀態動作對各自對應的內 部獎勵,其中,所述前饋神經網絡配置有自注意力機制;
基于各外部獎勵以及各內部獎勵,確定所述初始策略對應的第一目標 函數以及第一返回值,并基于所述第一目標函數以及第一返回值更新所述 初始策略的策略參數;
繼續執行基于所述確定性有限自動機以及所述待規劃任務對應的初始 策略確定所述待規劃任務對應的狀態動作軌跡的步驟,直至得到待規劃任 務對應的目標策略。
所述時序邏輯約束下基于強化學習的任務規劃方法,其中,所述基于 所述確定性有限自動機以及所述待規劃任務對應的初始策略確定所述待規 劃任務對應的狀態動作軌跡具體包括:
獲取待規劃任務中的執行端所處環境中的當前狀態;
基于所述當前狀態以及所述待規劃任務對應的初始策略進行動作采樣 以得到動作;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111155540.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種閥門和采用該閥門的馬桶
- 下一篇:一種替代癌癥術后化療的中藥膠囊





