[發明專利]機器人室內行走強化學習路徑導航算法在審
| 申請號: | 201711082784.7 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107860389A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 田錦 | 申請(專利權)人: | 金陵科技學院 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙)32249 | 代理人: | 徐激波 |
| 地址: | 211169 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人 行走 強化 學習 路徑 導航 算法 | ||
1.一種機器人室內行走強化學習路徑導航算法,其特征在于:包括以下步驟:
(1)機器人為一個運動物體,運動物體的行動區域抽象成一個封閉、沒有衛星信號、有多個凌亂障礙物的室內空間;機器人前部裝有直射探測器,探測器可以向正前方發射信號,如果正前方有障礙物,信號就被反射;
(2)運動物體通過收到的反射信號,知道正前方某個距離處有障礙物,不能繼續直線前進,需要改變行進方向;運動物體決定向左或者向右轉彎,并執行向左或向右動作繼續前進,當遇到下一個障礙物時,重復向右或向左的轉彎動作,實際是與前一次的轉向相反的轉向……,具體方法如下:
設立主方向,用Z表示;相對于Z方向的左方向用X表示,相對于Z方向的右方向用Y表示;運動物體開始方向設置在Z方向;到達終點的方向也是Z方向;運動物體每前進一個觀察距離后需要進行一次障礙物檢測,檢測正前方有無障礙物,沒有障礙物則繼續向前;正前方有障礙物,旋轉身體檢測相對正前方的左、右是否有障礙物,哪個方向沒有障礙物,向那個方向前進;如果左右兩個方向都沒有障礙物,則隨機選擇一個方向前進。前進固定距離停下,回轉到Z方向,檢測是否有障礙物,如果沒有,則向Z方向前進,如果有障礙物,繼續在原來的左即X方向或右即Y方向前進;如此往復,行走到終點;
(3)從開始狀態開始一直達到最終狀態的這個過程稱之為一個場景,機器人會從一個隨機的開始狀態出發,直到到達最終狀態完成一個場景,然后立即重新初始化到一個開始狀態,從而進入下一個場景;經過強化學習,形成一個最佳的路線,后續行駛按照已經學習成功的路徑進行;強化學習算法為尋跡優化,根據前一次的軌跡,進行取最短路徑優化,具體算法如下:
1)根據運行軌跡進行分段,分段的標準是滿足:約束條件1,Z方向某段的連續前進距離最大;約束條件2,Z方向總段數最少;約束條件3,X、Y方向距離最小;強化函數:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根據這個公式,Q位置=R的當前位置+γ*Q最大回報的方向;此處γ為系數取1;
2)達到上述3個約束條件要求的軌跡或部分軌跡得到強化記錄,并存儲這個記錄,構建成下一次軌跡的運行路徑;
存儲記錄強化流程如下:
第一次,機器人從零開始,沒有積累數據,左轉、右轉;左轉、右轉;……;最終到達終點;
第二次,根據第一次的數據積累,將第一次數據輸入進強化函數,按照強化函數的輸出,預設線路,并借助導航雷達的指示,左轉、右轉;左轉、右轉;……;最終到達終點。根據反饋,上次轉向后經歷較多方格的路徑優先;
第三次,將前一次的行駛路徑數據輸入強化函數,按照強化函數的輸出,預設線路,并借助導航雷達的指示,左轉、右轉;左轉、右轉;……;最終到達終點;
第四次,重復前一次的操作。
2.根據權利要求1所述的一種機器人室內行走強化學習路徑導航算法,其特征在于:所述機器人的設備體積為1立方米。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金陵科技學院,未經金陵科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711082784.7/1.html,轉載請聲明來源鉆瓜專利網。





