[發明專利]基于模型不確定性與行為先驗的控制策略離線訓練方法在審
| 申請號: | 202310064893.5 | 申請日: | 2023-02-06 |
| 公開(公告)號: | CN115972211A | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 章宗長;俞揚;周志華;周韌哲 | 申請(專利權)人: | 南京大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 不確定性 行為 先驗 控制 策略 離線 訓練 方法 | ||
1.一種基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,包括如下步驟:
步驟1:在機械臂裝配操作數據集上訓練集成動力學模型,所得模型可以模擬真實的機械臂操作環境;
步驟2:在機械臂裝配操作數據集上訓練變分自編碼器,所得行為先驗模型可以模擬采集這些數據的行為策略;
步驟3:開始訓練基于行為者-評論家的策略網絡,所述基于行為者-評論家的策略網絡為機械臂控制策略,控制策略與集成動力學模型交互生成機械臂的操作樣本,存入模型數據集中;
步驟4:從混合數據集中采樣小批量的機械臂操作樣本,計算樣本的模型不確定性與解碼器重構概率,并計算樣本的貝爾曼更新權重;
步驟5:使用采樣的小批量機械臂操作樣本來進行加權貝爾曼更新訓練值函數、目標值函數與控制策略;
步驟6:重復步驟3-5,控制策略訓練達到收斂后,完成訓練過程。
2.根據權利要求1所述的基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,對機械臂控制策略所要面對的機械臂操作環境進行建模得到集成動力學模型,機械臂控制策略可與集成動力學模型交互來擴充機械臂的數據集,并基于集成動力學模型誤差提供機械臂狀態-動作對的不確定性估計;
對采集機械臂離線數據的行為策略進行建模,得到行為先驗模型,行為先驗模型能提供機械臂狀態-動作對在行為策略下的出現概率;
基于行為者-評論家的策略網絡為需要學習的機械臂控制策略,在學習階段使用預先收集的機械臂離線數據集進行訓練,訓練過程采用的是加權貝爾曼更新,權重由集成動力學模型與行為先驗模型兩者共同構建。
3.根據權利要求1所述的基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,所述集成動力學模型由N個架構相同、初始化不同的全連接神經網絡表示,每個神經網絡用高斯分布建模,即輸入的是機械臂當前狀態s與動作a,輸出的是機械臂下一個狀態s′與獎勵r,其中代表高斯分布,φ代表神經網絡的參數,μ和Σ分別代表高斯分布的均值與標準差;集成動力學模型中的每個神經網絡基于以下最小化損失函數L(φ)進行訓練,所述最小化損失函數L(φ)的數學表達式為:
其中D是機械臂離線數據集,里面存儲有機械臂操作的經驗樣本,其中s,a,s′,r分別表示機械臂的運動狀態、執行動作、下一個狀態與獲得的獎勵。
4.根據權利要求1所述的基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,所述機械臂控制策略與集成動力學模型交互過程包括如下步驟:
步驟21:從機械臂離線數據集D中采樣一個狀態作為機械臂的當前狀態;
步驟22:機械臂的控制策略根據機械臂的當前狀態采樣一個動作;
步驟23:在動力學模型中隨機選取一個動力學模型,根據機械臂的當前狀態與動作生成機械臂的下一個狀態與獎勵;
步驟24:將下一個狀態作為機械臂的當前狀態,重復步驟22-23,直到達到給定的rollout長度,將所有生成的機械臂交互數據存入模型數據集中。
5.根據權利要求1所述的基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,每個機械臂的狀態-動作對(s,a)都能通過集成動力學模型來估計其不確定性u(s,a),計算公式如下:
其中表示第i個動力學模型輸出的高斯均值。
6.根據權利要求1所述的基于模型不確定性與行為先驗的控制策略離線訓練方法,其特征在于,動力學模型生成的機械臂操作數據中的獎勵都被施加一個不確定性懲罰,即以r-κu(s,a)來代替r,κ為超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310064893.5/1.html,轉載請聲明來源鉆瓜專利網。





