[發明專利]一種基于模型學習的清潔機器人最優目標路徑規劃方法有效
| 申請號: | 201610171859.8 | 申請日: | 2016-03-24 |
| 公開(公告)號: | CN105740644B | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 劉全;周誼成;朱斐 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 蘇州市新蘇專利事務所有限公司32221 | 代理人: | 朱亦倩 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 學習 清潔 機器人 最優 目標 路徑 規劃 方法 | ||
1.一種基于模型學習的清潔機器人最優目標路徑規劃方法,其特征在于,包括如下步驟:
步驟1)初始化模型,設置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)為獎賞函數,f(x,u,x′)為狀態轉移函數,Rmax為最大獎賞值,x、u為狀態動作對,x′為執行x、u后轉移到的下一個狀態;
步驟2)初始化環境,設置機器人的起始位置;
步驟3)判斷當前的探索完全度η,若達到閾值I,轉入步驟4),否則轉入步驟(5);所述探索完全度其中C(x,u)為狀態動作對(x,u)被訪問的次數,|X|為狀態空間大小,|U|為動作空間大小,m為狀態被標記為已知前需要被訪問的次數;
步驟4)使用自模擬度量方法,計算當前機器人可做的所有動作所到達的地點與最多垃圾堆的距離,選擇使距離最大的動作,轉入步驟(6);
步驟5)使用ε-Greedy策略選擇動作,轉入步驟(6);
步驟6)如果該狀態動作對被標記為已知,則放棄該動作,并隨機選擇一個動作;
步驟7)機器人根據動作進行移動,通過傳感器判斷當前地點是否有垃圾和移動之后的地點;
步驟8)通過R-MAX方法統計不同地點的訪問次數和獎賞和,標記已知地點,并計算狀態轉移函數f(x,u,x′)和獎賞函數R(x,u);
步驟9)機器人行動結束,若到達垃圾堆,轉入步驟(10),否則轉入步驟(2);
步驟10)執行值迭代算法;
步驟11)若運行時間允許,轉入步驟(2),否則通過Greedy方法計算最優路線。
2.根據權利要求1所述的基于模型學習的清潔機器人最優目標路徑規劃方法,其特征在于:
步驟4)中所述距離最大的動作其中,d(x,x′)為狀態x與x′之間的自模擬度量,Model(x,u)為從構建的模型中得到下一個狀態,xg為終結狀態。
3.根據權利要求1所述的基于模型學習的清潔機器人最優目標路徑規劃方法,其特征在于:
步驟8)中計算狀態轉移函數f(x,u,x′)和獎賞函數R(x,u)的具體步驟如下:
設置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,則R(x,u)←RSUM(x,u)/C(x,u),對所有x′∈C(x,u),f(x,u,x′)←C(x,u,x′)/C(x,u);
否則R(x,u)←Rmax,f(x,u,x′)←1;
其中C(x,u,x′)為在狀態x下執行動作u后轉移到狀態x′的次數,RSUM(x,u)為訪問狀態動作對x、u得到的所有獎賞之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610171859.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移位寄存器及液晶顯示裝置
- 下一篇:屬相星座組合工藝品的制作方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





