[發明專利]一種基于深度Double-Q網絡的Nao機器人路徑規劃方法在審
| 申請號: | 202111118389.6 | 申請日: | 2021-09-23 |
| 公開(公告)號: | CN113867345A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 趙佳瑋;張利軍 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 double 網絡 nao 機器人 路徑 規劃 方法 | ||
1.一種基于深度Double-Q網絡的Nao機器人路徑規劃方法,其特征在于步驟如下:
步驟1、虛擬環境信息預處理:
以Choregraphe軟件中Naoqi平臺作為訓練Nao機器人的虛擬環境,對虛擬環境中的信息做預處理:
1、面向障礙物時,計算Nao機器人相對障礙物的夾角
其中DXrelative,DYrelative,是X,Y方向機器人與障礙物之間的相對距離,再計算反正切函數即可得到相對夾角;
2、根據偏航角和相對距離,對偏航角進行劃分,推算虛擬環境的超聲波信息:
其中Sonar_info為推算聲納信息;left為左側聲納推算,right為右側聲納推算距離;Dr為虛擬環境中Nao機器人與障礙物之間的距離;傳感器中的腳底緩沖器在虛擬環境中設置為[0,0];
步驟2、深度Double-Q網絡虛擬仿真環境實驗:
設定馬爾可夫模型和獎勵函數:
S=[pos_xagent,pos_yagent,pos_θagent,Δx,Δy,distance,Sensor_info]
其中pos_xagent,pos_yagent,pos_θagent代表機器人的x,y坐標和偏航角;Δx,Δy代表機器人與目標點x,y方向的差值;distance為機器人與目標點之間的距離;Senor_info為機器人的一些傳感器信息即胸口超聲波及腳前部的緩沖器;
動作空間選取為:
Action=[forward,backward,left,right,left forward,left backward,rightforward,right backward]
其中動作空間為以45度分分割,分為8個離散動作空間即向前走、向左轉45度再前進、向左轉90度再前進、向左轉135度再前進、向后轉,向右轉45度再前進、向右轉90度再前進、向右轉135度再前進;
獎勵函數分為兩部分:連續獎勵指機器人運行過程中實時位置與目標點之間距離的負值;離散獎勵指當越過設定的邊界或者探測到障礙物距離小于設定的閾值給予懲罰,當與目標點之間的距離小于設置的閾值給予獎勵;具體形式如下:
其中,當機器人的位置與目標點之間距離小于0.07則默認其成功到達設定目標點;
依據設定的馬爾可夫模型和獎勵函數,基于深度Double-Q網絡,訓練Nao機器人在虛擬環境中進行避障和路徑規劃,得到訓練完成的深度Double-Q網絡;
步驟3、模型遷移,Nao機器人實物實驗:
將真實機器人獲取的狀態信息傳入其中,利用虛擬環境訓練完成的深度Double-Q網絡得到Nao機器人所要采取的具體動作,驗證其可行性。
2.根據權利要求1所述基于深度Double-Q網絡的Nao機器人路徑規劃方法,其特征在于:所述深度Double-Q網絡參數包含4層神經網絡,第一層50個神經元,第二層100個神經元,第三層50個神經元,第四層8個神經元;其他超參數有經驗緩存區大小為2000;小批量維度為256;梯度下降優化算法Adam算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111118389.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多缸式自主裝卸全能多用車
- 下一篇:具有配送功能換電系統





