[發明專利]基于神經網絡與Q學習算法結合的動態避障方法在審
| 申請號: | 201910760090.7 | 申請日: | 2019-08-16 |
| 公開(公告)號: | CN110345948A | 公開(公告)日: | 2019-10-18 |
| 發明(設計)人: | 黃超;張毅;鄭凱 | 申請(專利權)人: | 重慶郵智機器人研究院有限公司 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 401220 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 動態避障 相關參數 目標點 迭代 機器人技術領域 移動機器人運動 神經網絡參數 初始化參數 初始化設置 移動機器人 障礙物信息 迭代訓練 動態環境 更新參數 狀態判斷 初始化 有效地 障礙物 避障 更新 構建 收斂 反饋 安全 | ||
1.基于神經網絡與Q學習算法結合的動態避障方法,其特征在于:包括以下步驟:
S1:對相關參數進行初始化設置,包括神經網絡的參數和Q學習相關參數的初始化;
S2:根據環境障礙物數據與初始化參數進行訓練迭代;
S3:根據當前的環境障礙物信息,進行移動機器人的當前所處的狀態進行計算與判別,計算并更新Q值,同時反饋并更新神經網絡參數;
S4:根據更新參數后狀態判斷移動機器人運動是否安全;
S5:判斷是否達到迭代次數,確定是否繼續訓練;
S6:判斷是否達到目標點:如果沒有則使用神經網絡重新進行Q表構建,返回步驟S2進行新的一輪迭代訓練;如果已經到達目標點,則結束本次導航。
2.根據權利要求1所述的基于神經網絡與Q學習算法結合的動態避障方法,其特征在于:所述步驟S1中,初始化有關參數包括:迭代一次最大訓練數據數量MaxEpoch,最大迭代次數Maxiteration,每次迭代的步長MaxStep,以及折扣因子γ,容量μ甚至神經網絡隱含層結構與Q值矩陣初始值。
3.根據權利要求1所述的基于神經網絡與Q學習算法結合的動態避障方法,其特征在于:所述步驟S2中,首先需要獲取移動機器人實時的局部環境數據Ei(i=1,2,…,16),分別是移動機器人周圍分布的傳感器獲取到的實時障礙物的距離信息;然后根據相關參數進行迭代訓練。
4.根據權利要求1所述的基于神經網絡與Q學習算法結合的動態避障方法,其特征在于:所述步驟S3中,算法的訓練過程指計算和更新Q值矩陣的數值,即基于獎勵函數和在最終狀態下可以采取的所有先前行動的最大回報函數:
Q(st,at)=r(st,a)+γmax(Q,st+1)
其中:st表示的是移動機器人在t時刻的狀態;at表示的是移動機器人在t時刻所執行的動作;r是獎勵機制;max(Q,st+1)表示移動機器人在t+1時刻采用的所有可能的動作在新狀態下可獲得的最大Q值;γ是折扣因子;
將值函數進行調整,使用以下更新函數:
Q(st,at)=Q(st,at)+γ(r(st,a)+max(Q,st+1))
定義獎勵函數,首先對機器人的狀態s進行如下定義:
1)機器人與環境中的任何障礙物碰撞的可能性很小或沒有可能性的一組狀態被認為是安全狀態SS;
2)機器人與環境中的任何障礙物碰撞的可能性很高的一組狀態被認為是非安全狀態NS;
3)定義了兩個終止狀態:
機器人到達目標時的狀態被視為獲勝狀態WS;
機器人與障礙物碰撞時的狀態被認為是損失或失效狀態FS;
其中:dt表示機器人到目標的距離;dwin表示以目標點為圓心的半徑,當dt<dwin時表示機器人達到目標點;do表示障礙物離機器人的距離;dmin表示機器人與障礙物安全距離;dcol表示機器人與障礙物碰撞距離;
根據機器人的狀態的變化,將獎勵函數定義如表1所示;
表1 獎勵機制
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵智機器人研究院有限公司,未經重慶郵智機器人研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910760090.7/1.html,轉載請聲明來源鉆瓜專利網。





