[發明專利]基于憶阻交叉陣列與Q學習的機器人路徑規劃系統有效
| 申請號: | 201710366671.3 | 申請日: | 2017-05-23 |
| 公開(公告)號: | CN107085429B | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 胡小方;馬異峰;段書凱;賈鵬飛;彭小燕 | 申請(專利權)人: | 西南大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N20/00 |
| 代理公司: | 成都時譽知識產權代理事務所(普通合伙) 51250 | 代理人: | 陳千 |
| 地址: | 400715*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交叉 陣列 學習 機器人 路徑 規劃系統 | ||
本發明公開了一種基于憶阻交叉陣列與Q學習的機器人路徑規劃系統,一方面將Q學習中距離目標點的回報由離散點的形式改為用函數表達,另一方面,當機器人距障礙物一定范圍時讓其以直線趨近目標點,并且本發明提出了具有連續輸入輸出、動態可變電阻、納米尺寸的憶阻交叉陣列模型,詳細推導了改變憶阻值所需要的電壓以及所需的施加時間。最后經實驗分析,證明了方案的有效性。本發明提出了利用憶阻交叉陣列來實現機器人路徑規劃系統的新方案,將為憶阻器以及機器人路徑規劃更為廣闊的應用提供新的思路。
技術領域
本發明涉及憶阻交叉陣列與強化學習技術,具體涉及到一種基于憶阻交叉陣列與Q學習的機器人路徑規劃系統。
背景技術
強化學習是一種著名的無監督的機器智能學習算法,且被廣泛應用于人工智能等領域。著名的強化學習算法包括:Sutton在1988年提出的TD算法;Schwartz提出的R-Learning算法;Watkins在1989年提出的Q-Learning算法以及Peng and Williams在1996年提出的Q(λ)算法等。其中相對重要的Q-Learning算法被廣泛用于機器人路徑規劃。
但傳統的Q-Learning利用lookup表格法來存儲產生的Q值,所以當狀態空間逐漸增大時,可能會出現由于Q-Learning算法所需存儲空間巨大而導致狀態爆炸使得機器人不能有效工作,所以不得不讓機器人攜帶更多的存儲設備來滿足需要,使得機器人工作效率大大降低。
鑒于憶阻器的良好特性,本申請人于2012年提出了專利申請201210188573.2,并公開了一種基于憶阻交叉陣列的Q學習系統,該系統將新的電路元件——憶阻器成功應用到了強化學習中,解決了強化學習需要大量的存儲空間問題,為以后強化學習的研究提供了一種新的思路。
但是,現有經過繼續研究發現,現有的基于憶阻交叉陣列的Q學習系統存在的缺陷是:收斂速度太慢,機器學習時間較長。
發明內容
為了解決上述問題,本發明提供一種基于憶阻交叉陣列與Q學習的機器人路徑規劃系統,該系統通過構建一種新的硬件架構,在實現機器人路徑規劃時,加快了收斂速度,縮短了機器學習時間。
為實現上述目的,本發明所采用的具體技術方案如下:
一種基于憶阻交叉陣列與Q學習的機器人路徑規劃系統,包括憶阻交叉陣列,其關鍵在于,還包括讀寫控制開關、狀態檢測與選擇模塊、列選擇開關、控制器、隨機選擇模塊、第一比較器、第二比較器、延遲單元以及運算模塊,其中:
讀寫控制開關:用于控制憶阻交叉陣列的讀寫操作,設置有讀電壓Vr輸入端和寫電壓Vw輸入端;
狀態檢測與選擇模塊:當需要根據狀態執行相應動作時,用于檢測當前環境狀態st,執行動作at并得到環境回報rt;當需要對Q值進行更新時,用于輸出前一個時刻的環境狀態,并選擇相應的行線,使其加載寫電壓Vw,并持續時間Tw,更新憶阻陣列的輸出值;
列選擇開關:用于選擇對應的列線;
控制器:用于控制當前時刻是隨機選擇模塊工作還是第一比較器工作;
隨機選擇模塊:通過生成一隨機數作為列線選擇的判斷標準;
第一比較器:用于比較所有列線的電壓值,并將電壓值最大的一列選擇送入延遲單元中;
第二比較器:用于比較所有列線的電壓值,并將電壓值最大的一列選擇送入運算模塊中;
延遲單元:將輸出電壓延遲一個時間步長;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南大學,未經西南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710366671.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便利型鍵合絲識別工裝
- 下一篇:環形識別碼裝置





