[發(fā)明專利]一種機器人路徑規(guī)劃方法和規(guī)劃系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110228596.0 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112987742B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設計)人: | 尹翔;彭坤彥;黃寧馨;李恒宇 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 225009 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器人 路徑 規(guī)劃 方法 規(guī)劃系統(tǒng) | ||
1.一種機器人路徑規(guī)劃方法,其特征在于,包括:
S1、將機器人活動的二維場景柵格化為二維環(huán)境柵格圖,每個柵格的屬性為障礙物或道路;獲取機器人在二維環(huán)境柵格圖中的起始位置坐標s0和目的位置坐標sd;
S2、構建進化策略神經網絡,所述進化策略神經網絡包括依次連接的輸入層(21)、隱藏層(22)、Relu激活單元(23)、輸出層(24)、Sigmoid激活單元(25);所述輸入層有2個神經元;所述隱藏層包括2個級聯(lián)的子層,兩個隱藏子層中間有Relu激活單元;每個隱藏子層有64個神經元;所述輸出層有G個神經元;所述進化策略神經網絡的輸入為機器人的二維位置坐標s,輸出為機器人在位置s處執(zhí)行每個動作的概率P=(p1,p2,…,pG),pg為機器人在位置s處執(zhí)行第g個動作的概率,g=1,2,…,G,G是機器人動作種類總數;
S3、設置策略種群規(guī)模N,迭代次數T,噪聲標準差σ;初始化目標行為特征BC*,當前迭代次數t=0;隨機生成N組進化策略神經網絡的參數Θ={θn},n=1,2,…,N;
S4、對于每一組參數θn,將機器人起始位置s0輸入進化策略神經網絡,獲取機器人執(zhí)行每個動作的概率pg,選擇概率最大的動作并計算執(zhí)行后機器人的位置和立即獎勵;將機器人新的位置輸入進化策略神經網絡,獲取機器人新的動作、位置和立即獎勵,直到機器人到達目的位置sd;
在第n組參數θn下,機器人從s0到sd的策略πn(θn)由每一步的位置動作對組成:
其中Mn為策略πn(θn)中機器人移動的步數,表示機器人在位置處執(zhí)行動作
S5、計算策略πn(θn)的行為特征BC(πn):
表示向上取整函數;
計算策略πn(θn)的累積獎勵其中為執(zhí)行后機器人移動到位置處,獲得的立即獎勵;
將N個策略的所有軌跡點存入經驗回放池R,N個策略的所有行為特征組成檔案庫A,A={BC(πn)};
計算每個策略的新穎性,第n個策略πn(θn)的新穎性Nv(πn,A)為:
其中BC(πj)為檔案庫A中與BC(πn)距離最近的K個行為特征點之一,K<N,j=1,2,…,K,BC(πj)≠BC(πn),|| · ||2 為計算向量的2范數;
N個策略中新穎性最大的E個策略為精英策略;剩下的N-E個策略組成集合S;新穎性最小的H個策略組成集合U;
計算N個策略中的最優(yōu)策略π*,所述最優(yōu)策略π*為累積獎勵最大的策略;將目標行為特征BC*更新為最優(yōu)策略π*的行為特征BC(π*);
S6、構建深度強化學習網絡,所述深度強化學習網絡包括第一學習分支(610)和第二學習分支(620);所述第一學習分支(610)包括依次連接的第一策略網絡(611)、第一動作單元(612)和第一預測單元(613);所述第二學習分支(620)包括依次連接的第二策略網絡(621)、第二動作單元(622)和第二預測單元(623);所述第一策略網絡(611)與第二策略網絡(621)的結構均與進化策略神經網絡的結構相同,但參數不同,作用均為根據輸入的二維位置得到機器人執(zhí)行每個動作的概率;
所述第一策略網絡(611)根據輸入位置s(1)得到執(zhí)行每個動作的概率P(1),所述第一動作單元(612)根據P(1)選擇動作a(1),并將a(1)進行one-hot編碼,轉換為G維向量Va(1);位置s(1)和動作向量Va(1)的組合[s(1),Va(1)]作為第一預測單元(613)的輸入;
所述第二策略網絡(621)根據輸入位置s(2)得到執(zhí)行每個動作的概率P(2),所述第二動作單元(622)根據P(2)選擇動作a(2),并將a(2)進行one-hot編碼,轉換為G維向量Va(2);位置s(2)和動作向量Va(2)的組合[s(2),Va(2)]作為第二預測單元(623)的輸入;
所述第一預測單元(613)包括并聯(lián)的第一預測子網和第二預測子網,所述第二預測單元(623)包括并聯(lián)的第三預測子網和第四預測子網;所述第一預測子網、第二預測子網、第三預測子網、第四預測子網的結構相同參數不同;
所述第一預測子網包括依次連接的輸入層、隱藏層、輸出層;所述輸入層有G+2個神經元,所述隱藏層包括2個級聯(lián)的子層,每個子層有64個神經元;所述輸出層有1個神經元;輸入為位置動作向量組合,輸出為輸入的Q值;
隨機初始化第一預測子網的參數Φ1、第二預測子網的參數Φ2;令第三預測子網的參數Φ3=Φ1、第四預測子網Φ4=Φ2;
S7、根據集合U中的策略更新深度強化學習網絡中的參數,具體步驟為:
S71、令h=1;
S72、令第一策略網絡的參數Ψ1、第二策略網絡的參數Ψ2均為為U中第h個策略對應的進化策略神經網絡參數,更新Φ1和Φ2,具體包括:
S721、從經驗回放池R中隨機抽取L個軌跡點構成第一樣本集,利用第一樣本集更新第一預測子網的參數Φ1和第二預測子網的參數Φ2,具體步驟包括:
分別將第一樣本集中的軌跡點中的和作為第一學習分支(610)和第二學習分支(620)的輸入,第一預測子網和第二預測子網輸出的兩個Q值,分別記為Q1,Q2;第三預測子網和第四預測子網輸出的兩個Q值,分別記為Q3,Q4;l=1,2,…,L;
計算當前目標Q值target:target=min(Q3,Q4)*γ+ril;
其中γ為取值范圍為(0,1)的折扣因子超參數;
S722、定義:
其中Q1(st,at)表示第一預測子網在輸入為時輸出的Q值;Q2(st,at)表示第二預測子網在輸入為時輸出的Q值;E[]表示計算期望;
通過反向傳播更新Φ1和Φ2;
S723、從經驗回放池R中再次隨機抽取L個軌跡點更新第一樣本集,重新執(zhí)行步驟S721和S722,再次更新Φ1和Φ2,直到更新次數達到預設的第一更新次數閾值T1;
S73、更新第一策略網絡的參數Ψ1,包括:
S731、選擇第一預測子網或第二預測子網,即w=1或w=2;
S732、定義:
為步驟S731中選擇的預測子網的輸出Qw對參數Φw的梯度,為策略對的梯度;s,a為經驗回放池R中軌跡點的位置和動作;
通過反向傳播更新第一策略網絡的參數Ψ1;
S74、用軟更新來更新第二策略網絡的參數Ψ2、第三預測子網的參數Φ3和第四預測子網的參數Φ4:
Ψ2′←τΨ1+(1-τ)Ψ2,Φ′3←τΦ1+(1-τ)Φ3,Φ4←τΦ2+(1-τ)Φ4
其中Ψ2和Ψ2′分別是軟更新前后的第二策略網絡的參數,Φ3和Φ′3分別是軟更新前后的第三預測子網的參數,Φ4和Φ′4分別是軟更新前后的第四預測子網的參數;τ是大于0小于1的常數;
S75、將進化策略神經網絡的參數修改為第一策略網絡的參數Ψ1,獲取在參數Ψ1下從起始位置s0到目的位置sd的策略π(Ψ1),計算策略π(Ψ1)的新穎性Nv(π(Ψ1),A);
如果將集合U中的第h個策略和集合S中與對應的策略均替換為π(Ψ1);
如果h<H,令h自增1,跳轉至步驟S72進行下一次深度強化學習網絡參數的更新;
S8、令t自增1;如果t<T,對集合S中的N-E個策略的參數添加零均值且標準差為σ的高斯噪聲,生成N-E個新的進化策略神經網絡參數;所述N-E個新的進化策略神經網絡參數與上一代的E個精英策略所對應的進化策略神經網絡參數作為N組進化策略神經網絡的參數Θ={θn},跳轉至步驟S4進行下一次迭代優(yōu)化;
如果t=T,迭代優(yōu)化結束;將當前最優(yōu)策略π*作為結果,得到機器人從起始位置到目的位置每一步的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110228596.0/1.html,轉載請聲明來源鉆瓜專利網。





