[發明專利]一種深度自動編碼器與Q學習算法相結合的移動機器人路徑規劃方法有效
| 申請號: | 201510420223.8 | 申請日: | 2015-07-16 |
| 公開(公告)號: | CN105137967B | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 于乃功;默凡凡;阮曉鋼 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N3/02 |
| 代理公司: | 北京思海天達知識產權代理有限公司11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 自動 編碼器 學習 算法 相結合 移動 機器人 路徑 規劃 方法 | ||
1.一種深度自動編碼器與Q學習算法相結合的移動機器人路徑規劃方法,其特征在于:該方法包括深度自動編碼器部分,BP神經網絡部分,強化學習部分;深度自動編碼器部分采用深度自動編碼器處理機器人所處環境的圖像,獲得圖像數據的特征,為后續實現對環境的認知打下基礎;輸入圖像數據,通過一層層網絡提取圖像特征,最終得到可以代表圖像的最主要的特征;每層網絡提取圖像特征的過程,其思想是堆疊多個層(s1,s2,…,sn),令每一層的輸出等于輸入;輸入經過編碼器產生一個輸出,這個輸出經過解碼器解碼后是原輸入信號的復現;以重建的輸入與原輸入的差最小為原則調節參數,參數調節好后去掉解碼器,即得到一個隱藏層,固定此層參數,將此層的輸出作為下一層的輸入訓練下一層;
本方法中在深度自動編碼器加入了稀疏限制其中s2是隱含層神經元的數目;ρ是稀疏參數被設為一個很小的接近于0的值;ρj表示某一層網絡節點輸出值的平均值,j=1、2、3﹒﹒﹒sl,sl為某一層網絡的節點數;加入稀疏限制可保證當隱含層神經元的數量很大時,自動編碼器依然能發現輸入數據的結構性特征;
BP神經網絡部分實現獎勵值與圖像特征數據的擬合,實現深度自動編碼器與強化學習的結合;BP神經網絡包括三個部分:輸入部、訓練部、輸出部;輸入部接收外來的輸入樣本X,由訓練部進行網絡的權系數W調整,然后由輸出部輸出結果;在這個過程中,期望的輸出信號可以作為教師信號輸入,由該教師信號與實際輸出進行比較,產生的誤差去控制修改權系數W;
通過深度自動編碼器提取圖像特征,再將提取的特征經BP神經網絡擬合可實現對環境的認知;
強化學習部分基于以上網絡的輸出結果實現機器人的路徑規劃,本方法采用的是強化學習中的Q學習算法;Q學習算法通過與環境交互學習,在行動-評價的環境中獲得知識,改進行動方案以適應環境達到預想目的;強化學習框圖中,agent感知周圍環境狀態,根據Q學習算法選擇相應的動作,agent執行完動作后會作用于環境使環境發生改變,同時返回一個獎賞信號給agent;機器人通過與環境的交互實現自主學習,最終找到從起始點到達終點的可行路徑。
2.根據權利要求1所述的一種深度自動編碼器與Q學習算法相結合的移動機器人路徑規劃方法,其特征在于:深度自動編碼器處理機器人所處環境信息即機器人所處環境的圖像,獲取圖像特征數據;所得環境特征數據通過BP神經網絡的擬合得到機器人所處位置,實現對周圍環境的認知,進而得到相應的獎勵值R;Q學習算法通過獎勵值R改變相應的Q值,Q學習算法再根據Q值選擇移動機器人要執行的動作,使機器人所處的位置發生變化,從而其周圍環境變化,實現與環境交互;
深度自動編碼器每一層網絡的參數更新過程中,其每層參數更新規則如公式(1)到(7)所示:
公式(1)、(2)中hW,b(x)是各網絡節點的輸出;f(z)是輸出函數;為l層的節點j與l+1層的節點i之間的連接權重;表示與l+1層的節點i連接的偏置;x(i)是輸入,輸入一幅圖像,先通過(1)、(2)式得到此圖像的特征值,即輸出f(z);公式(3)、(4)、(5)中J(W,b)是損失函數,在J(W,b)中hW,b(x)的輸入x是得到的原圖像的特征值,解碼器解碼得到復現的原圖像,y(i)是期望的輸出,即原輸入圖像,目標是最小化關于w和b的函數J(W,b);KL(ρ||ρj)是稀疏性限制,上文已介紹;公式(6)、(7)中分別為W,b的更新公式,α是0到1之間的參數;通過調節W,b的值,使深度編碼器的最終輸出經過反解碼后最能代表原圖像,得到最能代表原圖像的特征值;本方法采用梯度下降法與Rprop方法更改各層參數值;
Q-learning算法采用數值迭代來逼近最優值,其更新規則如公式(8):
公式(8)中α∈[0,1]是學習率,控制學習速度;st,at分別為機器人當前的狀態即機器人的位置和機器人當前的選擇的動作值;γ∈[0,1]是折扣因子;由式(1)可知要更新的Q值是由原來的Q值和下一個狀態的Q值共同決定,Q值數據傳遞具有一定的滯后性;若有任意相連的s1、s2、s3三種狀態,狀態s1要獲得狀態s3的Q值反饋需要2次重復訓練循環,為改善數據傳遞滯后性采用基于“回溯”思想的Q值更新策略;
數值更新過程如下:
第一步訓練 s0←s1
第二步訓練 s0←s1←s2
第三步訓練 s0←s1←s2←s3
………
第n步訓練 s0←s1←s2←……←sn-1←sn。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510420223.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:泡沫塑料自動成型機廢蒸氣冷凝式真空發生系統
- 下一篇:一種仰臥健身器





