[發明專利]火星車的任務規劃模型建立方法、裝置、電子設備及介質有效
| 申請號: | 202210419866.0 | 申請日: | 2022-04-21 |
| 公開(公告)號: | CN114676471B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 盧皓;張輝;崔曉峰;費立剛;趙煥洲;于天一;胡曉東;謝圓;張寬;孫鴻強;潤冬 | 申請(專利權)人: | 北京航天飛行控制中心 |
| 主分類號: | G06F30/10 | 分類號: | G06F30/10;G06F30/27;G06F17/16;G06F17/18;G06F111/04 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100094 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 火星 任務 規劃 模型 建立 方法 裝置 電子設備 介質 | ||
1.一種火星車的任務規劃模型建立方法,其特征在于,包括以下步驟:
步驟S1,獲取第一天地環境狀態,所述第一天地環境狀態為滿足約束條件的第一初始天地環境狀態;
步驟S2,根據所述第一天地環境狀態下,按照ε-貪婪策略從各個任務中確定所述第一天地環境狀態對應的任務;
步驟S3,確定火星車在所述第一天地環境狀態下,執行所述任務后對應的第二天地環境狀態;
步驟S4,對于每個所述任務,根據所述任務和目標天地環境狀態,確定所述任務對應的獎勵值,其中,所述目標天地環境狀態包括所述第一天地環境狀態,或所述第一天地環境狀態和所述第二天地環境狀態;
步驟S5,對于所述第二天地環境狀態下的每個所述任務,根據所述任務對應的獎勵值和所述第二天地環境狀態對應的狀態任務價值函數中與所述任務對應的元素的最大值,更新所述第一天地環境狀態對應的狀態任務價值函數中,與所述任務對應的元素的值,得到更新狀態任務價值函數,所述更新狀態任務價值函數為更新后的所述第一天地環境狀態對應的狀態任務價值函數,對于每個所述狀態任務價值函數,表征了在所述第二天地環境狀態下,執行各個所述任務中的目標任務后,執行各個所述任務中除所述目標任務之外的其他任務的累計獎勵值的期望;
步驟S6,將所述第二天地環境狀態作為新的第一天地環境狀態,重復執行所述步驟S2至所述步驟S5,直到所述步驟S2至所述步驟S5對應的各任務對應的執行累積時間達到預設任務規劃時長,完成一個訓練周期,記錄所述訓練周期對應的總獎勵值,所述總獎勵值為根據所述訓練周期對應的各個所述任務對應的獎勵值確定的;
步驟S7,執行n次所述訓練周期,直到所述第n次對應的總獎勵值滿足訓練結束條件,停止執行第n+1次所述訓練周期,且將滿足所述訓練結束條件時對應的更新狀態任務價值函數作為目標狀態任務價值函數;
步驟S8,將所述目標狀態任務價值函數作為任務規劃模型,以通過所述任務規劃模型根據待規劃天地環境狀態,確定使得所述待規劃天地環境狀態對應的元素的值為最大值的目標任務。
2.根據權利要求1所述的方法,其特征在于,所述任務規劃模型是基于強化學習方法建立的,所述強化學習方法包括Q-learning強化學習方法,若所述強化學習方法為所述Q-learning強化學習方法,所述狀態任務價值函數為Q矩陣。
3.根據權利要求2所述的方法,其特征在于,若所述狀態任務價值函數為Q矩陣,對于所述第二天地環境狀態下的每個所述任務,根據所述任務對應的獎勵值和所述第二天地環境狀態對應的狀態任務價值函數中與所述任務對應的元素的最大值,更新所述第一天地環境狀態對應的狀態任務價值函數中,與所述任務對應的元素的值,得到更新狀態任務價值函數是通過以下公式確定的:
Q(St,At)=Q(St,At)+α(λmaxaQ(St+1,At+1)-Q(St,At)+Rt+1)
其中,Q(St,At)表示所述第一天地環境狀態對應的狀態任務價值函數,Q(St+1,At+1)表示第二天地環境狀態對應的狀態任務價值函數,Rt+1表示所述任務對應的獎勵值,maxaQ(St+1,At+1)表示所述第二天地環境狀態對應的狀態任務價值函數中與所述任務對應的元素的最大值,α為學習率,λ為折扣率,α和λ均為設定值。
4.根據權利要求1至3中任一項所述的方法,其特征在于,若所述目標天地環境狀態包括所述第一天地環境狀態,所述步驟S4,包括:
對于每個所述任務,根據所述任務和所述第一天地環境狀態,確定所述任務對應的獎勵值;
若所述目標天地環境狀態包括所述第一天地環境狀態和所述第二天地環境狀態,所述步驟S4,包括:
對于每個所述任務,根據所述任務對應的第一天地環境狀態和所述第二天地環境狀態,確定所述任務對應的狀態變化量,根據所述狀態變化量,確定所述任務對應的獎勵值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航天飛行控制中心,未經北京航天飛行控制中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210419866.0/1.html,轉載請聲明來源鉆瓜專利網。





