[發明專利]一種無人機避障和路徑規劃裝置及方法在審
| 申請號: | 202110228122.6 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112819253A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 呂岳;張浩然;田應洪;沈季瑋 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N3/04;G06N3/08 |
| 代理公司: | 上海碩力知識產權代理事務所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 無人機 路徑 規劃 裝置 方法 | ||
1.一種無人機避障和路徑規劃裝置,包括:
深度圖采集模塊,用于采集飛行環境深度圖片;
變分自編碼器構建單元,用于構建變分自編碼器,將采集的深度圖片輸入變分自編碼器,對輸入的深度圖片降維,輸出深度圖的隱變量;
因果強化學習模型構建單元,用于構建強化學習模型,使用DDPG作為強化學習模型框架,接收所述變分自編碼器輸出的隱變量因子以及無人機當前位置距離目標點的差值向量D(x,y)進行處理,輸出動作控制量控制所述無人機飛行速度。
2.如權利要求1所述的一種無人機避障和路徑規劃裝置,其特征在于:所述變分自編碼器通過使用編碼器,利用其編碼功能對采集的深度圖片進行降維,同時分離圖片像素間的相關性輸出相對獨立的隱變量因子Z。
3.如權利要求2所述的一種無人機避障和路徑規劃裝置,其特征在于,所述強化學習模型包括:
動作決策網絡,根據輸入的無人機當前狀態S經過三層不同數量神經元的全連接網絡最終輸出相應動作決策a,并實時更新;
動作決策目標網絡,與所述動作決策網絡結構相同,利用經驗回放池中采樣的下一狀態S′作為輸入,輸出最優下一動作a′為價值評估網絡提供目標動作;
價值評估網絡,根據輸入無人機當前所處狀態S以及所述動作決策網絡輸出的動作決策輸出a,經過三層具有不同數量神經元的全連接網絡對當前狀態做出對應動作的策略的價值評估Q(S,a),并實時更新;
目標價值網絡,其輸入為下一次無人機所處狀態以及所述動作決策目標網絡輸出的下一次最佳動作a′,輸出下一次動作及狀態價值,將所述目標價值網絡的輸出作為下一次動作價值評估的真實回報,通過回報函數計算當前狀態及動作真實回報作為所述動作決策目標網絡的目標價值。
4.如權利要求3所述的一種無人機避障和路徑規劃裝置,其特征在于:所述動作決策網絡的更新梯度▽J(θ)為所述價值評估網絡輸出的該動作決策對當前狀態映射關系的價值評估。
5.如權利要求4所述的一種無人機避障和路徑規劃裝置,其特征在于:所述動作決策目標網絡在所述動作決策網絡和該動作決策目標網絡時間差分達到預設閾值時用所述動作決策網絡的參數對該動作決策目標網絡進行參數更新。
6.如權利要求5所述的一種無人機避障和路徑規劃裝置,其特征在于:所述價值評估網絡的更新梯度為將所述目標價值網絡對動作決策目標網絡輸出的最佳下次動作a′和下一步狀態進行評估輸出的目標價值yi與該價值評估網絡輸出的價值Q(S,a)作差的差值。
7.如權利要求6所述的一種無人機避障和路徑規劃裝置,其特征在于:所述目標價值網絡在所述價值評估網絡和該目標價值網絡時間差分達到預設閾值時用所述價值評估網絡的參數對該網絡進行參數更新。
8.如權利要求7所述的一種無人機避障和路徑規劃裝置,其特征在于:所述因果強化學習模型構建單元還構建因果發現算法,通過二值化因果圖去除變分自編碼器輸出中的混雜因子和無關因子。
9.如權利要求8所述的一種無人機避障和路徑規劃裝置,其特征在于:當所述強化學習模型訓練達到較為收斂的結果時,保存模型參數,所述因果強化學習模型構建單元在所述強化學習模型中添加二值化因果關系矩陣濾除無關和混雜因子,通過Q-Learning的方式對二值化因果關系矩陣進行更新直到得到最終的二值化因果圖,完成因果發現。
10.一種無人機避障和路徑規劃方法,包括如下步驟:
步驟S1,采集無人機飛行環境深度圖片;
步驟S2,將采集的深度圖片輸入變分自編碼器,對輸入的深度圖片降維,輸出深度圖片的隱變量;
步驟S3,構建強化學習模型,使用DDPG作為強化學習模型框架,獲取所述變分自編碼器輸出的隱變量因子和無人機當前位置距離目標點的差值向量D(x,y)進行處理,輸出動作控制量控制所述無人機飛行速度;
步驟S4,隨機采樣m個樣本訓練對構建的強化學習模型進行訓練;
步驟S5,改變與無人機進行交互的外界環境,進行因果學習,從而達到對步驟S2中輸入隱變量進行選擇的效果,濾除無關變量,以增加智能體的泛化能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110228122.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種空調器底座以及空調器
- 下一篇:一種自動放料機構
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





