[發(fā)明專利]一種無人機自主反偵察及躲避敵方攻擊的方法在審
| 申請?zhí)枺?/td> | 202011020526.8 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112051863A | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設計)人: | 俞揚;詹德川;周志華;賈俊華;袁雷;張云天;羅凡明;付聰;龐竟成;尹皓 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 無人機 自主 偵察 躲避 敵方 攻擊 方法 | ||
本發(fā)明公開一種無人機自主反偵察及躲避敵方攻擊的方法,基于Unity3D構建模擬器,構建敵我雙方攻擊的對戰(zhàn)場景;通過模擬器預留的人類玩家接口,與規(guī)則寫好的少量對手進行有限回合對抗,收集無人機躲避敵方反偵察及攻擊的解決方案的樣本數(shù)據(jù);利用收集到的人類玩家逃跑數(shù)據(jù)進行學習,通過強化學習中的模仿學習進行學習,得到預訓練模型;基于預訓練模型,通過強化學習算法PPO實現(xiàn)在模擬器中的逃跑能力學習;將訓練好的無人機躲避偵察及攻擊模型與人類玩家進行測試并遷移到現(xiàn)實環(huán)境中。本發(fā)明提出的無人機自主躲避攻擊的解決方案,在現(xiàn)實場景中應用意義重大,可以在成本較低的前提下訓練出較好的無人機躲避攻擊的策略,能夠實際應用于無人機飛行控制領域。
技術領域
本發(fā)明涉及一種無人機自主反偵察及躲避敵方攻擊的方法,主要解決偵察型無人機飛行過程中如何有效的躲避敵方的反偵察和攻擊,屬于無人機飛行控制技術領域。
背景技術
隨著科技進步及無人機技術水平提升,無人機在軍事越發(fā)重要,廣泛應用于軍事偵察、搏斗等領域。其中無人機在執(zhí)行軍事偵察任務的過程中,往往面臨被對手偵測甚至被對手攻擊的可能;與此同時,環(huán)境本身的復雜性與變化,也給無人機躲避偵察或者攻擊帶來極大的挑戰(zhàn),諸如環(huán)境中的高度不定的雜草、灌木、建筑物等,都給無人機的逃跑帶來了巨大的挑戰(zhàn)。
傳統(tǒng)無人機控制過程中一般通過預設好的規(guī)則進行,通過專家寫好的規(guī)則決定無人機的飛行。一般利用激光雷達、攝像頭、聲吶等傳感器實現(xiàn)無人機對環(huán)境的感知,基于無人機獲得的感知信息,結合無人機自身慣性導航單元等,基于預設好的專家寫好的規(guī)則實現(xiàn)無人機的控制與導航。然而,此類方法,無法窮盡現(xiàn)實中的所有情況,在對手發(fā)生改變、或者環(huán)境變化比較大的情形下,往往泛化能力不強。
近年來強化學習技術取得了較大進步,尤其是AlphaGo的出現(xiàn),引起人們對這一領域極大的關注。強化學習通過不斷試錯的方式與環(huán)境進行交互,通過獲得大量的軌跡,最大化智能體獲得的累積獎勵匯報,直到模型收斂。然而,一般的速度強化學習算法會極大的受到網(wǎng)絡模型初始化的影響,學界不少人提出通過模型學習的方式,首先學得一個預訓練模型,再基于該預訓練模型進行迭代優(yōu)化,往往會取得超越人類的效果。
無人機在真實環(huán)境中的控制難度較大,實現(xiàn)特定功能的無人機,一般需要搭載諸如雙目攝像頭、激光雷達、慣性導航單元等傳感器,其造價往往較高。在真實環(huán)境中進行強化學習試錯學習,代價較大且沒有必要。
發(fā)明內容
發(fā)明目的:針對現(xiàn)有技中無人機控制難度較大、且基于規(guī)則的逃跑方案泛化能力較差的問題,本發(fā)明提供了一種無人機自主反偵察及躲避敵方攻擊的方法,構建模擬器,且首先在模擬器中通過強化學習算法學習一個較好的策略,再將其遷移到真實環(huán)境,是一種行之有效且實際的做法。
技術方案:一種無人機自主反偵察及躲避敵方攻擊的方法,包括如下內容:
(1)基于Unity3D構建模擬器,所述模擬器真實的模擬了無人機的各種參數(shù)以及各種環(huán)境參數(shù),同時模擬了攻擊物的各項參數(shù);通過控制模擬器的參數(shù),可以模擬無人機在真實環(huán)境中的飛行狀態(tài)以及攻擊物的狀態(tài)。
(2)通過收集一批人類玩家在模擬器中躲避敵方偵察或攻擊的數(shù)據(jù),利用模仿學習訓練出一個預訓練模型,這個模型類似于上面所說的專家寫的無人機自主躲避攻擊的規(guī)則。
(3)使用(2)中的預訓練模型作為PPO算法的action網(wǎng)絡,這樣做的目的是加速PPO算法的收斂,在模擬器中,無人機加載PPO算法的模型和模擬器進行交互,收集訓練數(shù)據(jù)S,A,R進行訓練,直到模型收斂,得到策略模型。
(4)將學習到的策略模型,遷移到真實環(huán)境,要保證真實環(huán)境中無人機參數(shù)和模擬器中一致,并且無人機觀測到的信息和模擬器中一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011020526.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





