[發明專利]基于勢場的強化學習路徑規劃算法在審
| 申請號: | 201911116875.7 | 申請日: | 2019-11-15 |
| 公開(公告)號: | CN110794842A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 褚明;苗雨;楊茂男;穆新鵬;尚明明 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人路徑規劃 勢場 復雜環境條件 可移動障礙物 強化學習算法 系統資源占用 障礙物環境 傳統人工 動態環境 動作函數 仿真環境 復雜環境 環境空間 決策過程 決策能力 路徑規劃 強化學習 智能算法 狀態函數 魯棒性 勢場法 無碰撞 建模 算法 確定性 機器人 場景 獎勵 優化 決策 | ||
本發明提供了一種面向復雜環境下基于勢場的強化學習機器人路徑規劃算法,屬于智能算法優化領域,針對場景內存在大規模數量的可移動障礙物的環境條件,實現了復雜動態環境下的機器人路徑規劃。本方法首先利用傳統人工勢場法對環境空間進行建模,再根據勢場模型定義馬爾科夫決策過程中的狀態函數、獎勵函數和動作函數,并利用深度確定性策略梯度的強化學習算法,在仿真環境中對其進行訓練,最終使機器人具備在復雜障礙物環境下進行無碰撞的路徑規劃的決策能力。實驗結果表明,該方法決策時間短、系統資源占用低、具備一定的魯棒性,能夠實現在復雜環境條件下的機器人路徑規劃。
技術領域
本發明屬于智能算法優化領域,涉及一種面向復雜動態環境的基于勢場的強化學習路徑規劃算法。
背景技術
路徑規劃方法是指機器人在無障礙物碰撞的前提下,規劃出一條從起始點到目標點的最優路徑的方法。路徑規劃是一種滿足約束條件下的優化問題,優化指標通常有時間最短、路程最優和能耗最低等,算法需具備一定的復雜性、隨機性和多約束性等特點。根據路徑規劃的算法模型,可分為傳統方法和智能方法,常用的傳統方法有柵格法、人工勢場法和拓撲空間法等,常用的智能方法有遺傳算法、蟻群算法和強化學習方法等。
柵格法(Grid Method,GM)是最常用的環境建模方法之一,1968年W.E.Howden首次提出利用該方法進行機器人路徑規劃研究,柵格法將環境地圖分為很多小柵格,定義障礙物區域、已覆蓋區域和未覆蓋區域。該方法簡單實用,但計算量大,因此只適合簡單環境的情況。四叉樹法對柵格地圖法進行改進,將環境地圖進行四分化,四叉樹數據結構使得環境可以迅速建模,但當許多小障礙物存在于環境時,樹形結構會加深,計算量相應增大。
人工勢場法(Artificial Potential Field,APF)是一種基于虛擬力的路徑規劃方法,由Khatib和Andrews等人于1994年首次提出。該方法將虛擬的勢場附加在機器人的運動環境中,假設目標點處存在引力場,障礙物處存在斥力場,將機器人視為一個質點,在整個環境中受到目標點對其施加的引力,在障礙物附近受到斥力,機器人的運動方向取決于引力和斥力的合力。人工勢場法收斂速度快,實時性強,但不適用于復雜的動態環境,優化過程中容易發生合力為零、陷入局部極小值的現象。
遺傳算法(Genetic Algorithm,GA)是人工智能科學的一個分支,是一種模仿達爾文的遺傳進化過程搜索最優解的算法。其思想源于遺傳選擇和適者生存的進化規律,將一種群體中的所有個體視作對象,利用隨機化技術指導對一個編碼的參數空間進行高效搜索,遺傳算法的遺傳操作包括選擇、交叉和變異,參數編碼、初始群體的設定、適應度函數的設計、遺傳操作設計和控制參數設定五個要素是遺傳算法的核心內容。其最大的優點是容易與其他算法進行結合,缺點是計算效率不高,改進該算法也是當前的研究熱點。
蟻群算法(Ant Colony Algorithm,ACA)是一種啟發式的搜索算法,其思想源于蟻群覓食行為的探索,螞蟻覓食時會在經過路徑上留下一定量的信息素,同一時間段內最短的路徑上保留的信息素相對較多,因此通過算法的反復迭代后,后來的螞蟻會根據信息素濃度選擇較短的路徑。該算法易于實現,但計算效率不高,容易陷入局部最優解。
強化學習(Reinforcement Learning,RL)的方法是一種比較新興的研究方法,基本思想是結合機器學習的理論,對機器人在學習階段的行為進行評估,如果機器人的行為符合預期設定則獎勵為正,那么機器人將在以后的動作行為中更加偏向使用該行為,反之這種行為的出現概率將會越來越低,甚至消失。通過有效的設定行為獎懲規則,可以使得機器人能夠按照設定進行長時間的“訓練”,最終實現機器人的路徑規劃。強化學習路徑規劃的研究難點主要在于路徑規劃到馬爾科夫過程的轉化,以及狀態函數、動作函數和獎勵函數的定義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911116875.7/2.html,轉載請聲明來源鉆瓜專利網。





