[發明專利]移動機器人路徑規劃Q學習初始化方法無效
| 申請號: | 201210269280.7 | 申請日: | 2012-07-30 |
| 公開(公告)號: | CN102819264A | 公開(公告)日: | 2012-12-12 |
| 發明(設計)人: | 宋勇;李貽斌;劉冰;王小利;榮學文 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移動 機器人 路徑 規劃 學習 初始化 方法 | ||
技術領域
本發明屬于機器學習技術領域,尤其涉及一種移動機器人路徑規劃Q學習初始化方法。
背景技術
隨著機器人應用領域的不斷拓展,機器人所面臨的任務也越來越復雜,盡管很多情況下研究人員可以對機器人可能執行的重復行為進行預編程,但為實現整體的期望行為而進行行為設計變得越來越困難,設計人員往往不可能事先對機器人的所有行為做出合理的預測。因此,能夠感知環境的自治機器人必須能夠通過與環境的交互在線學習獲得新的行為,使得機器人能夠根據特定的任務選擇能達到目標的最優動作。
強化學習利用類似于人類思維中的試錯(trial-and-error)的方法來發現最優行為策略,目前已經在機器人行為學習方面展現出了良好的學習性能。Q學習算法是求解信息不完全Markov決策問題的一種強化學習方法,根據環境狀態和上一步學習獲得的立即回報,修改從狀態到動作的映射策略,以使行為從環境中獲得的累積回報值最大,從而獲得最優行為策略。標準Q學習算法一般將Q值初始化為0或隨機數,機器人沒有對環境的先驗知識,學習的初始階段只能隨機地選擇動作,因此,在復雜環境中算法收斂速度較慢。為了提高算法收斂速度,研究人員提出了許多改進Q學習的方法,提高算法學習效率,改善學習性能。
通常情況下,加速Q學習收斂速度的方法主要包括兩個方面:一種方法是設計合適的回報函數,另一種方法是合理初始化Q函數。
目前,研究人員已經提出了許多改進的Q學習算法,使機器人在強化學習的過程中能夠獲得更加有效的回報,主要包括:關聯Q學習算法、惰性Q學習算法、貝葉斯Q學習算法等。其主要目的就是將對于機器人有價值的隱含信息融入到回報函數中,從而加速算法收斂速度。
關聯Q學習將當前回報與過去時刻的立即回報進行比較,選擇回報值更大的動作,通過關聯回報方法能夠改善系統的學習能力,減少獲得最優值所需要的迭代步數。
惰性Q學習的目標是提供一種預測狀態立即回報的方法,學習過程中利用信息延遲原則,在必要的情況下對新的目標進行預測,動作比較器檢查每一種情形的期望回報,然后選擇期望回報最大的動作執行。
貝葉斯Q學習利用概率分布描述機器人狀態-動作對Q值的不確定性估計,學習過程中需要考慮前一時刻Q值的分布,并利用機器人學習到的經驗對先前的分布進行更新,利用貝葉斯變量表示當前狀態的最大累積回報,貝葉斯方法從本質上改進了Q學習的探索策略,改善了Q學習的性能。
由于標準強化學習中強化信號都是由狀態值函數計算得到的標量值,無法將人的知識形態和行為模式融入到學習系統中。而在機器人學習過程中,人往往具有相關領域的經驗和知識,因此,在學習過程中將人的認知和智能以強化信號的形式反饋給機器人,能夠減小狀態空間維數,加快算法收斂速度。針對標準強化學習在人機交互過程中存在的問題,Thomaz等在機器人強化學習過程中由人實時地給出外部強化信號,人根據自身經驗調整訓練行為,引導機器人進行前瞻性探索。Arsenio提出了一種對訓練數據進行在線、自動標注的學習策略,在人機交互過程中通過觸發特定的事件獲得訓練數據,從而將施教者嵌入到強化學習的反饋回路。Mirza等提出了基于交互歷史的體系結構,機器人能夠利用與人進行社會性交互的歷史經驗進行強化學習,使機器人能夠在與人進行的簡單游戲中逐漸獲得合適的行為。
另一種改善Q學習算法性能的方法就是將先驗知識融入到學習系統中,對Q值進行初始化。目前,對Q值進行初始化的方法主要包括近似函數法、模糊規則法、勢函數法等。
近似函數法利用神經網絡等智能系統逼近最優值函數,將先驗知識映射成為回報函數值,使機器人在整個狀態空間的子集上進行學習,從而能夠加快算法收斂速度。
模糊規則法根據初始環境信息建立模糊規則庫,然后利用模糊邏輯對Q值進行初始化。利用這種方法建立的模糊規則都是根據環境信息人為設定的,往往不能客觀地反映機器人的環境狀態,造成算法不穩定。
勢函數法在整個狀態空間定義相應的狀態勢函數,每一點勢能值對應于狀態空間中某一離散狀態值,然后利用狀態勢函數對Q值進行初始化,學習系統的Q值可以表示為初始值加上每次迭代的改變量。
在機器人的各種行為當中,機器人必須遵守一系列的行為準則,機器人通過認知與交互作用涌現出相應的行為與智能,機器人強化學習Q值初始化就是要將先驗知識映射成為相應的機器人行為。因此,如何獲得先驗知識的規則化表達形式,特別是實現領域專家的經驗與常識知識的機器推理,將人的認知和智能轉化為機器的計算和推理的人機智能融合技術是機器人行為學習急需解決的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210269280.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鐵精粉的提取設備
- 下一篇:一種多缸漿料除鐵器的磁腔機構





