[發明專利]一種基于Kernel采樣策略在不確定性環境下的在線規劃方法有效
| 申請號: | 202011220903.2 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112356031B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 陳彥杰;黃益斌;林依凡;吳錚;何炳蔚;林立雄 | 申請(專利權)人: | 福州大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 郭東亮;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 kernel 采樣 策略 不確定性 環境 在線 規劃 方法 | ||
1.一種基于Kernel采樣策略在不確定性環境下的在線規劃方法,用于對機器人在不確定性環境下執行任務時的規劃,其特征在于:在該不確定性環境中,表示為POMDP模型的不確定性是制約機器人可靠運行的主因;所述POMDP模型中,機器人可觀測自身的部分狀態,機器人通過不斷的與環境進行交互來獲得回報最大的策略;
在所述在線規劃方法中,處理可觀測部分時,把機器人的狀態表示為一個信念,記為belief,其屬于一個狀態的集合,以POMDP算法通過構建信念樹的方式執行前向搜索,以此來獲得當前信念下的最優策略;所述信念樹的每一個節點代表一個信念,父節點與子節點通過行為-觀測分支連接;
所述POMDP算法是在線POMDP規劃算法Kernel-DESPOT,包括以下步驟;
步驟S1、在機器人當前信念空間b中,依據Kernel采樣策略采樣K個狀態構建采樣狀態集合Φb,并對每一個狀態進行權重的分配;
步驟S2、通過Kernel-DESPOT算法以b作為根節點構建信念樹D;
步驟S3、初始化機器人當前信念b經驗價值的上界U(b)和下界L(b),以及RK-WDU最優價值V*(b)的上界μ(b)和下界l(b);
步驟S4、定義機器人當前信念的不確定性為ε(b)←μ(b)-l(b);
步驟S5、如果不確定性ε(b)大于理想值并且算法的總運行時間小于Tmax,則對根節點b0進行擴展;
步驟S6、當信念樹停止擴展時,執行BACKUP(D,b);
在BACKUP(D,b)執行完畢之后,會更新根節點的不確定性ε(b),重新判斷不確定性是否小于ò0或者運行時間是否大于Tmax,如果條件滿足,則Kernel-DESPOT算法返回b的l(b)值;
步驟S7、最終對于根節點b,算法會選擇一個最優行為a*使得信念樹返回的l(b)最大,即a*←maxa∈Al(b,a);
比較信念樹計算的最優行為a*對應的價值l(b,a*)和通過默認策略π0初始化的價值L(b)的大小,如果L(b)更大,則將最優行為修改為默認策略,即a*←π0(b);
步驟S8、機器重復以上的步驟,直到最終到達目標點;
步驟S1具體實現方式為:Kernel采樣策略核函數定義
其中,在核函數中表示的是向量的轉置;x表示當前機器人狀態可觀測信息,xi表示信念空間中狀態可觀測信息,||x||為x的范數,為克羅內克符號;K(x,xi)表示x與xi的相似程度,因此可以依據K(x,xi)采樣跟當前狀態信息高度相關的K個狀態;Kernel-DESPOT信念樹每一個節點b都含有一個集合Φb,該集合表示經過節點b的所有序列;每個序列的起始狀態構成采樣狀態集合;對于當前信念b,序列φ的起始狀態s0的權重為
其中,φ∈Φb,xi為狀態s0的可觀測部分信息;
定義σn2為測量噪聲方差,表示上一個采樣周期中信念空間所有狀態的K(x,xi)值的方差;定義σf2為信號方差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011220903.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物聯網智能聯動控制方法及控制中心
- 下一篇:一種主簧裝配裝置





