[發明專利]馬爾科夫運動目標的無人機搜索方法及裝置有效
| 申請號: | 201810779927.8 | 申請日: | 2018-07-16 |
| 公開(公告)號: | CN108594858B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 陳立家;王贊;汪曉群;薛政鋼;管禹;趙瑞杰;馮帥棟;馮子凱;王敬飛;趙成偉;袁蒙恩 | 申請(專利權)人: | 河南大學;河南宙合網絡科技有限公司 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 蘇州知途知識產權代理事務所(普通合伙) 32299 | 代理人: | 張錦波;陳瑞瀧 |
| 地址: | 47500*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 馬爾科夫 運動 目標 無人機 搜索 方法 裝置 | ||
1.一種馬爾科夫運動目標的無人機搜索方法,其特征在于,包括:
目標步驟,接收到搜索任務后,構建馬爾科夫運動目標的概率模型,從而得到馬爾科夫運動目標運動過程中所有可能出現的狀態及其概率分布;
無人機步驟,獲取無人機搜索過程中所有可能出現的狀態及其概率分布;
構建步驟,根據無人機搜索過程中和馬爾科夫運動目標運動過程中所有可能出現的狀態及其概率分布,構建搜索任務下無人機行為預測的馬爾科夫模型,建立基于馬爾科夫決策的多階段啟發式策略迭代算法;
規劃步驟,利用基于馬爾科夫決策的多階段啟發式策略迭代算法,獲取收益最大的搜索行為策略,從而規劃出無人機最優的搜索航跡;
所述構建搜索任務下無人機行為預測的馬爾科夫模型,具體為:
設無人機搜索任務進行中的時刻集合T={1,2,3,…};
設無人機的離散狀態空間S=(s1,s2,s3,…),該狀態空間包含了無人機搜索過程中和馬爾科夫運動目標運動過程中所有可能出現的狀態;
設無人機的動作空間A={a1,a2,...,ax,...,aq},表示無人機所有可能的改變狀態的動作,其中元素ax表示第x個動作,q為動作空間中的元素個數;
設無人機處于狀態sn下的可行動作集合A(sn)={a1(sn),a2(sn),a3(sn),...},表示無人機位于某個狀態下可以采取的所有動作集合;
設T(sn,ax(sn),sm)表示無人機所有狀態轉移概率集合,其中的任意元素p(sm|sn,ax(sn))表示在狀態sn下,執行可用動作ax(sn)之后,狀態變化到sm的概率,
設報酬集合R(sn)的任意元素r(sn,ax(sn))表示在狀態sn執行動作ax(sn)的報酬;
則無人機執行任意一個搜索任務下的搜索行為預測的馬爾科夫模型為:
MDP={S,A,T(sn,ax(sn),sm),R(sn)}→π(sn);
其中,π為策略,表示從狀態集合到動作集合的映射,π(sn)代表無人機從狀態sn到動作集合的映射,→表示輸出最優策略;
所述規劃步驟,包括:
計算步驟:用MDP折扣模型計算報酬效用函數,其中折扣因子γ滿足:0<γ<1;折扣模型的報酬函數表示在從時刻t=0開始無人機從狀態sn使用策略π后的折扣期望總報酬;
根據MDP折扣模型的最優方程,建立在狀態sn下無人機在搜索任務中搜索操作收益的最優狀態值函數方程以及最優動作值函數方程并根據兩個最優函數方程建立最優搜索策略函數方程
給定步驟:對協同搜索區域進行柵格化劃分,確定MDP模型的離散狀態空間S,給定參與搜索任務的無人機數目g,g、i為正整數,sUAV(i)為第i架無人機當前狀態,sUAV(i)∈S,A(sUAV(i))為第i架無人機在狀態sUAV(i)下的動作集合,Ki為第i架無人機的最大搜索步長;給定折扣因子γ和策略迭代的結束條件ε,令迭代次數b=0;
初始步驟:確定目標運動的初始位置以及每個無人機開始搜索的位置;每個無人機根據目標開始運動的初始位置以及目標運動啟發式信息獲得目標在整個區域的存在概率分布,從而確定每個無人機下一時刻即將搜索的虛擬目標位置;
迭代步驟:每個無人機根據自己的虛擬目標位置,并根據自己當前的狀態sUAV(i),迭代計算各自的狀態值函數Vb+1(sUAV(i)),令迭代次數b=b+1;
判斷步驟:如果||Vb+1(sUAV(i))-Vb(sUAV(i))||<ε,則結束迭代,進入遍歷步驟;否則,轉到迭代步驟;
遍歷步驟:每個無人機根據最終得到的狀態值函數Vb+1(sUAV(i))遍歷A(sUAV(i))獲得Q(sUAV(i),ai),最終求得收益最大的搜索行為策略πi(t+1)*;
轉移步驟:按照所求的最優策略πi(t+1)*執行動作ai,狀態由轉移到同時,無人機獲得立即報酬ri(sUAV(i),ai),此時令t=t+1,令第i架無人機搜索步長ki=ki+1;
結束步驟:若在某一個時刻t,第i架無人機位置sUAV(i)與目標當前模擬位置starget相同,則第i架無人機成功搜索到目標,搜索任務完成,算法結束;若搜索步長則搜索任務失敗,算法結束;所述目標當前模擬位置為根據馬爾科夫運動目標運動過程中所有可能出現的狀態及其概率分布獲取的目標當前最可能出現的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南大學;河南宙合網絡科技有限公司,未經河南大學;河南宙合網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810779927.8/1.html,轉載請聲明來源鉆瓜專利網。





