[發(fā)明專利]時序邏輯約束下基于強化學習的任務規(guī)劃方法及相關裝置在審
| 申請?zhí)枺?/td> | 202111155540.3 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN114265674A | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設計)人: | 田戴熒;丁玉隆;蔣卓;崔金強;商成思;尉越 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 深圳市君勝知識產(chǎn)權代理事務所(普通合伙) 44268 | 代理人: | 溫宏梅 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時序 邏輯 約束 基于 強化 學習 任務 規(guī)劃 方法 相關 裝置 | ||
1.一種時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述方法包括:
將待規(guī)劃任務轉換為確定性有限自動機;
基于所述確定性有限自動機以及所述待規(guī)劃任務對應的初始策略確定所述待規(guī)劃任務對應的狀態(tài)動作軌跡,其中,所述動態(tài)動作軌跡中的每個狀態(tài)動作對均對應有外部獎勵;
將所述狀態(tài)動作軌跡以及各狀態(tài)動作對各自對應的外部獎勵輸入預設的前饋神經(jīng)網(wǎng)絡,通過所述前饋神經(jīng)網(wǎng)絡輸出各狀態(tài)動作對各自對應的內(nèi)部獎勵,其中,所述前饋神經(jīng)網(wǎng)絡配置有自注意力機制;
基于各外部獎勵以及各內(nèi)部獎勵,確定所述初始策略對應的第一目標函數(shù)以及第一返回值,并基于所述第一目標函數(shù)以及第一返回值更新所述初始策略的策略參數(shù);
繼續(xù)執(zhí)行基于所述確定性有限自動機以及所述待規(guī)劃任務對應的初始策略確定所述待規(guī)劃任務對應的狀態(tài)動作軌跡的步驟,直至得到待規(guī)劃任務對應的目標策略。
2.根據(jù)權利要求1所述時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述基于所述確定性有限自動機以及所述待規(guī)劃任務對應的初始策略確定所述待規(guī)劃任務對應的狀態(tài)動作軌跡具體包括:
獲取待規(guī)劃任務中的執(zhí)行端所處環(huán)境中的當前狀態(tài);
基于所述當前狀態(tài)以及所述待規(guī)劃任務對應的初始策略進行動作采樣以得到動作;
控制執(zhí)行端執(zhí)行所述動作以得到下一狀態(tài),并檢查所述下一狀態(tài)在確定性有限自動機中的轉換狀態(tài);
若所述轉換狀態(tài)滿足第一預設條件,則為狀態(tài)動作對配置相應的外部獎勵并結束狀態(tài)動作對以得到狀態(tài)動作軌跡,其中,所述狀態(tài)動作對包括狀態(tài)和動作;
若所述轉換狀態(tài)滿足第二預設條件,則為所述狀態(tài)動作對配置預設外部獎勵;
將所述下一狀態(tài)作為當前狀態(tài),并繼續(xù)執(zhí)行基于所述當前狀態(tài)以及所述待規(guī)劃任務對應的初始策略進行動作采樣以得到動作的步驟,直至所述轉換狀態(tài)違反時序邏輯或者屬于可接受狀態(tài)集合或者狀態(tài)動作軌跡的軌跡長度達到預設長度閾值。
3.根據(jù)權利要求2所述時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述第一預設條件為所述轉換狀態(tài)違反時序邏輯或者屬于可接受狀態(tài)集合;所述第二預設條件為所述轉換狀態(tài)未違反時序邏輯且不屬于可接受狀態(tài)集合,或者未檢查所述下一狀態(tài)在確定性有限自動機中的轉換狀態(tài)。
4.根據(jù)權利要求2所述時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述若所述轉換狀態(tài)未違反時序邏輯且不屬于可接受狀態(tài)集合,則為所述當前狀態(tài)和動作構成的狀態(tài)動作對配置預設外部獎勵之后,所述方法還包括:
將所述確定性有限自動機的狀態(tài)重置為確定性有限自動機的初始狀態(tài)。
5.根據(jù)權利要求1所述時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述前饋神經(jīng)網(wǎng)絡包括自注意力模塊以及全連接模塊;所述將所述狀態(tài)動作軌跡以及各狀態(tài)動作對各自對應的外部獎勵輸入預設的前饋神經(jīng)網(wǎng)絡,通過所述前饋神經(jīng)網(wǎng)絡輸出各狀態(tài)動作對各自對應的內(nèi)部獎勵具體包括:
將所述將所述狀態(tài)動作軌跡以及各狀態(tài)動作對各自對應的外部獎勵輸入輸入所述自注意力模塊,通過所述自注意力模塊輸出各狀態(tài)動作對各自對應的時序特性向量;
將各狀態(tài)動作對各自對應的時序特性向量輸入所述全連接模塊,通過所述全連接模塊輸入各動作狀態(tài)各自對應的內(nèi)部獎勵。
6.根據(jù)權利要求5所述時序邏輯約束下基于強化學習的任務規(guī)劃方法,其特征在于,所述動作狀態(tài)對應的時隙特性向量為:
y=ωv+x
其中,v表示值向量,x表示時間序列特征向量,q表示查詢向量,k表示鍵向量,softmax表示softmax函數(shù),dimv表示值向量v的空間維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經(jīng)鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111155540.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種閥門和采用該閥門的馬桶
- 下一篇:一種替代癌癥術后化療的中藥膠囊





