[發明專利]一種基于強化學習的路徑規劃方法及裝置在審
| 申請號: | 202011263430.4 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112507520A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 周銳;胡文;孫佳優;葉梓豪;郭浩文 | 申請(專利權)人: | 深圳慧拓無限科技有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N20/00;G06F17/15 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 毛雨田 |
| 地址: | 518057 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 路徑 規劃 方法 裝置 | ||
本發明提供了一種基于強化學習的路徑規劃方法及裝置,通過建立環境勢能場,利用目標點的引力場和障礙物的斥力場對迭代路徑的引導作用,可以加快收斂的速度,并且可以根據環境勢能場優化獎勵函數,從而實現獎勵函數中也體現環境勢能,即綜合原獎勵函數、目標點的引力場和障礙物的斥力場所產生的作用力的合力,來更有目的性的選取迭代路徑,得到下一狀態,從而在加快迭代搜索效率的同時也能夠更加容易找到目標點,從而提高學習能力。
技術領域
本發明涉及智能交通領域,具體涉及一種基于強化學習的路徑規劃方法及裝置。
背景技術
路徑規劃是智能體、智能車輛發展的關鍵技術,路徑規劃是指智能體在未知的環境下,規劃出一條從起點到終點并躲避障礙物的路線。常用的路徑規劃方法可分為傳統方法和人工智能方法,傳統方法有柵格法、人工勢場法和拓撲空間法等,人工智能方法包括遺傳算法、蟻群算法和神經網絡方法等。
隨著智能體應用場景越來越復雜,傳統的路徑規劃方法已經不能滿足復雜環境的路徑規劃需求。近年來,基于人工智能的機器學習快速發展,包括監督學習、無監督學習、半監督學習、強化學習四類。其中,強化學習因其強大的自主學習能力被廣泛地應用于決策規劃技術。強化學習是基于行為主義心理學的方法,不需要大量帶有標簽的訓練數據,通過不斷地與環境交互,從環境中獲取狀態動作的獎勵反饋,從而學習到具有最大獎勵值的狀態和動作,以實現最優任務規劃。強化學習路徑規劃的關鍵在于構建馬爾可夫決策過程、狀態和動作的定義以及獎勵函數的設計,目前研究較多的用于求解信息不完全Markov決策問題的強化學習有Q學習方法和SARSA算法。
Q學習因其強大的自主學習能力,在路徑規劃領域已經取得了很多成果,是應用最為廣泛的強化學習算法。Q學習首先建立一個Q表所有的狀態-動作對的價值,每一次迭代時從環境中獲得一個獎勵反饋信息來更新Q表,如果得到正反饋(比如抵達目的地),則對應Q值會不斷增大;如果得到負反饋(比如碰到障礙物),則對應Q值會不斷減少。在經過多次訓練后,Q表將收斂到真實的動作價值函數,智能體根據貪心策略選擇動作以完成任務。
然而,常規的Q學習方法在沒有任何先驗知識的情況下,會將Q表初始化為全0或隨機數,這將大大增加在復雜環境下初期迭代的搜索盲目性,容易出現很大的無效迭代搜索空間,增加收斂時間。此外,強化學習存在探索與利用困境,探索是指智能體在沒有足夠先驗知識的情況下,對環境進行探索。利用是指智能體在積累一定經驗后,選擇經驗中獎勵最大的動作。如果只是利用已探知的環境,則智能體可能會錯過更優的路線,陷入局部最優解;若大量的探索未知環境,則計算量增加,收斂時間大大增加。
發明內容
有鑒于此,本發明實施例致力于提供一種基于強化學習的路徑規劃方法及裝置,通過建立環境勢能場,利用目標點的引力場和障礙物的斥力場對迭代路徑的引導作用,可以加快收斂的速度,并且可以根據環境勢能場優化獎勵函數,從而實現獎勵函數中也體現環境勢能,即綜合原獎勵函數、目標點的引力場和障礙物的斥力場所產生的作用力的合力,來更有目的性的選取迭代路徑,得到下一狀態,從而在加快迭代搜索效率的同時也能夠更加容易找到目標點,從而提高學習能力。
根據本發明的一方面,本申請一實施例提供的一種基于強化學習的路徑規劃方法,包括:建立環境勢能場,所述環境勢能場包括目標點的引力場和障礙物的斥力場;根據所述環境勢能場和獎勵函數,優化所述獎勵函數;選擇迭代路徑,得到下一狀態;以及當所述下一狀態的獎勵函數滿足預算條件時,結束迭代。
在一實施例中,所述方法還包括:根據所述環境勢能場和獎勵函數,初始化當前狀態的評價函數。
在一實施例中,所述根據所述環境勢能場和獎勵函數,初始化當前狀態的評價函數包括:所述當前狀態的初始評價函數值與對應的獎勵函數正相關,所述當前狀態的初始評價函數值與對應的狀態下的勢能值正相關;其中,所述勢能值為所述引力場和所述斥力場的合力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳慧拓無限科技有限公司,未經深圳慧拓無限科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011263430.4/2.html,轉載請聲明來源鉆瓜專利網。





