[發(fā)明專利]機器人路徑導航方法、系統(tǒng)、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202110632055.4 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113532457A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設計)人: | 呂蕾;趙盼盼;周青林;嵇存;張宇昂;呂晨 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人 路徑 導航 方法 系統(tǒng) 設備 存儲 介質 | ||
1.機器人路徑導航方法,其特征是,包括:
獲取機器人狀態(tài)信息、障礙物信息以及目標位置信息;
將獲取的信息輸入到訓練后的DDPG網絡模型中,得到機器人路徑導航結果;根據(jù)導航結果,完成機器人路徑導航;
其中,DDPG網絡模型通過dueling網絡來計算Q值;
其中,DDPG網絡模型的獎勵值通過獎勵函數(shù)來計算,所述獎勵函數(shù)中包含歐式距離與余弦距離的差值;
其中,所述歐式距離,是指第一歐式距離與第二歐式距離之間的差值;所述第一歐式距離,是指機器人前一時刻所在的位置與目標位置之間的歐式距離,所述第二歐式距離,是指機器人當前時刻所在的位置與目標位置之間的歐式距離;
其中,所述余弦距離,是指第一向量與第二向量之間的余弦距離;所述第一向量是指目標位置指向機器人當前時刻所在位置的向量;所述第二向量是指目標位置指向機器人前一時刻所在位置的向量。
2.如權利要求1所述的機器人路徑導航方法,其特征是,所述訓練后的DDPG網絡模型;訓練步驟包括:
(1):初始化Actor當前網絡、Actor目標網絡、經驗回放池、Critic目標網絡和Critic當前網絡;
(2):獲取機器人狀態(tài)信息S、障礙物信息以及目標位置信息;
(3):將機器人狀態(tài)信息S輸入Actor當前網絡,Actor當前網絡對狀態(tài)信息S進行處理,得到執(zhí)行動作A;執(zhí)行動作A加上服從正態(tài)分布的隨機噪聲,增強機器人的搜索能力;
(4):機器人執(zhí)行動作A,得到新狀態(tài)S’,通過獎勵函數(shù)得到獎勵值R,將(S,A,S’,R,done)作為一條經驗數(shù)據(jù)存入經驗回放池中;
(5):Critic當前網絡從經驗池中取出若干個樣本,通過dueling網絡計算當前目標Q值;并基于當前目標Q值計算損失函數(shù),通過梯度反向傳播來更新Critic當前網絡中所有參數(shù);
(6):通過梯度反向傳播來更新Actor當前網絡中的所有參數(shù);
(7):基于Actor當前網絡的網絡參數(shù)對Actor目標網絡的網絡參數(shù)進行更新;基于Critic當前網絡的網絡參數(shù)對Critic目標網絡的網絡參數(shù)進行更新;
(8):判斷新狀態(tài)S’是否是終止狀態(tài),如果是,則當前輪迭代完畢,否則,進入(3)。
3.如權利要求2所述的機器人路徑導航方法,其特征是,所述通過獎勵函數(shù)得到獎勵值R;具體過程為:
其中,arrive代表到達目標位置,done代表碰撞到障礙物,R1代表由余弦距離得到的獎勵值,R2代表由歐氏距離得出的獎勵值。
4.如權利要求3所述的機器人路徑導航方法,其特征是,所述R1,計算過程為:
vec1=(currentx-goalx,currrenty-goaly)
vec2=(pastx-goalx,pasty-goaly)
其中,(currentx,currenty)代表機器人的當前時刻所在的位置;(pastx,pasty)代表機器人的前一時刻所在的位置;vec1代表從目標位置指向當前時刻所在位置的向量;vec2代表從目標位置指向前一時刻所在位置的向量,Cos(vec1,vec2)代表兩個向量之間的余弦距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110632055.4/1.html,轉載請聲明來源鉆瓜專利網。





