[發明專利]一種基于深度Double-Q網絡的Nao機器人路徑規劃方法在審
| 申請號: | 202111118389.6 | 申請日: | 2021-09-23 |
| 公開(公告)號: | CN113867345A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 趙佳瑋;張利軍 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 double 網絡 nao 機器人 路徑 規劃 方法 | ||
本發明涉及一種基于深度Double?Q網絡的Nao機器人路徑規劃方法,針對不確定環境,利用機器人獲取的局部信息,實現在室內環境主動避障、規劃路徑達到設定的目標點,提高了常用的路徑規劃算法的泛化能力。通過對訓練環境數據預處理來逼近真實場景下機器人可獲取的局部環境信息以及設置合適的狀態空間,動作空間和獎勵函數,本方法可以直接利用獲取的局部環境信息,在未知的環境中進行有效避障和路徑規劃,在一定程度上克服了傳統算法需要獲取充足的環境信息并再次進行建模、探索環境的不足,提高了算法的泛化能力,利于解決未知環境下的路徑規劃問題。
技術領域
本發明屬于深度強化學習、路徑規劃領域,涉及一種基于深度Double-Q網絡的Nao機器人路徑規劃方法。
背景技術
路徑規劃是指在具有障礙物的環境內按照一定的評價標準,尋找一條從起始狀態(包括位置和姿態)到達目標狀態(包括位置和姿態)的無碰路徑的技術。
目前路徑規劃算法可大致分為:經典算法和人工智能算法。傳統的路徑規劃算法主要有:模擬退火算法、人工勢場算法、禁忌搜索算法等。隨著人工智能的興起,因其具有一定的自我學習,自我更新和記憶能力,很多基于人工智能的路徑規劃算法被提出,典型的有:蟻群算法、神經網絡算法、遺傳算法等。上述算法大多需要對機器人周圍環境信息有充分了解,然后基于某種規則進行導航規劃,雖然這些方法也都取得了不錯的效果,但是由于機器人所處的工作環境較為復雜,環境狀態多變,多數實際應用環境變化較多,不具備完全獲取環境信息的條件,所以需要機器人能夠從未知的環境中識別路線,能夠應對不同的工作場景,完成路徑規劃任務。
發明內容
要解決的技術問題
為了避免現有技術的不足之處,本發明提出一種基于深度Double-Q網絡的Nao機器人路徑規劃方法,實現機器人不僅能夠在特定的場景識別路徑,而且還能具備在不同場景中規劃路徑的能力,提高機器人的路徑規劃的適應能力。
本發明針對不確定環境,利用機器人獲取的局部信息,實現在室內環境主動避障、規劃路徑達到設定的目標點,提高了常用的路徑規劃算法的泛化能力。
技術方案
一種基于深度Double-Q網絡的Nao機器人路徑規劃方法,其特征在于步驟如下:
步驟1、虛擬環境信息預處理:
以Choregraphe軟件中Naoqi平臺作為訓練Nao機器人的虛擬環境,對虛擬環境中的信息做預處理:
1、面向障礙物時,計算Nao機器人相對障礙物的夾角
其中DXrelative,DYrelative是X,Y方向機器人與障礙物之間的相對距離,再計算反正切函數即可得到相對夾角;
2、根據偏航角和相對距離,對偏航角進行劃分,推算虛擬環境的超聲波信息:
其中Sonar_info為推算聲納信息;left為左側聲納推算,right為右側聲納推算距離;Dr為虛擬環境中Nao機器人與障礙物之間的距離;傳感器中的腳底緩沖器在虛擬環境中設置為[0,0];
步驟2、深度Double-Q網絡虛擬仿真環境實驗:
設定馬爾可夫模型和獎勵函數:
S=[pos_xagent,pos_yagent,pos_θagent,Δx,Δy,distance,Sensor_info]
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111118389.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多缸式自主裝卸全能多用車
- 下一篇:具有配送功能換電系統





