[發明專利]基于憶阻交叉陣列與Q學習的機器人路徑規劃系統有效
| 申請號: | 201710366671.3 | 申請日: | 2017-05-23 |
| 公開(公告)號: | CN107085429B | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 胡小方;馬異峰;段書凱;賈鵬飛;彭小燕 | 申請(專利權)人: | 西南大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N20/00 |
| 代理公司: | 成都時譽知識產權代理事務所(普通合伙) 51250 | 代理人: | 陳千 |
| 地址: | 400715*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交叉 陣列 學習 機器人 路徑 規劃系統 | ||
1.一種基于憶阻交叉陣列與Q學習的機器人路徑規劃系統,包括憶阻交叉陣列,其特征在于,還包括讀寫控制開關、狀態檢測與選擇模塊、列選擇開關、控制器、隨機選擇模塊、第一比較器、第二比較器、延遲單元以及運算模塊,其中:
讀寫控制開關:用于控制憶阻交叉陣列的讀寫操作,設置有讀電壓Vr輸入端和寫電壓Vw輸入端;
狀態檢測與選擇模塊:當需要根據狀態執行相應動作時,用于檢測當前環境狀態st,執行動作at并得到環境回報rt;當需要對Q值進行更新時,用于輸出前一個時刻的環境狀態,并選擇相應的行線,使其加載寫電壓Vw,并持續時間Tw,更新憶阻陣列的輸出值;
列選擇開關:用于選擇對應的列線;
控制器:用于控制當前時刻是隨機選擇模塊工作還是第一比較器工作;
隨機選擇模塊:通過生成一隨機數作為列線選擇的判斷標準;
第一比較器:用于比較所有列線的電壓值,并將電壓值最大的一列選擇送入延遲單元中;
第二比較器:用于比較所有列線的電壓值,并將電壓值最大的一列選擇送入運算模塊中;
延遲單元:將輸出電壓延遲一個時間步長;
運算模塊:用于根據環境回報rt、延遲單元的輸出電壓以及第二比較器的輸出電壓計算得到寫電壓Vw以及施加時間Tw;
所述運算模塊按照計算更新當前狀態憶阻值所需要的寫電壓Vw,其中α為學習率,γ為折扣率,rt為機器人在狀態st下執行動作at后環境給的回報狀態,V(st,at)為延遲單元輸出的電壓值,為第二比較器輸出的電壓值;
所述環境回報rt按照計算,其中系數c控制著收斂速度,dt是機器人與目標點之間的距離;利用(x,y,ω)表示機器人當前坐標位置和旋轉角,θ表示機器人運動方向與水平方向的夾角,當dt≤l1,l1為預設閾值,調整ω讓機器人朝向目標點,然后讓機器人以直線的方式趨近于目標點;如果在機器人趨近目標點的過程中沒有遇到障礙物,則執行動作按以下兩種情況設置:
1)在每一個離散的時間步t內,當機器人與目標點在同一水平線上時,機器人的位置調整為(x±d0,y,0°),直到它到達目標點;當機器人與目標點在同一垂直線上,機器人的位置調整為(x,y±d0,90°);
2)在每一個離散的時間步t內,當機器人與目標點不在同一水平或垂直線上,有下列四種情況:
Ⅰ:當機器人的坐標滿足:x<xtarget and y<ytarge,計算出θ后將機器人的位置調整為(x+x′,y+y′,θ)直到它到達終點,x′和y′都是預設的步進;
Ⅱ:當機器人的坐標滿足:x>xtarget and y<ytarget,計算出θ后將機器人的位置調整為(x-x′,y+y′,180°-θ)直到它到達終點,x′和y′都是預設的步進;
Ⅲ:當機器人的坐標滿足:x<xtarget and y>ytarget.計算出θ后將機器人的位置調整為(x+x′,y-y′,360°-θ)直到它到達終點,x′和y′都是預設的步進;
Ⅳ:當機器人的坐標滿足:x>xtarget and y>ytarget.計算出θ后將機器人的位置調整為(x-x′,y-y′,180°+θ)直到它到達終點,x′和y′都是預設的步進;
其中:θ=arcsin(|ytarget-y|/dt),θ∈[0,90°];(xtarget,ytarget)表示目標點的坐標位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南大學,未經西南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710366671.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便利型鍵合絲識別工裝
- 下一篇:環形識別碼裝置





