[發(fā)明專利]基于模型不確定性與行為先驗的控制策略離線訓練方法在審
| 申請?zhí)枺?/td> | 202310064893.5 | 申請日: | 2023-02-06 |
| 公開(公告)號: | CN115972211A | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計)人: | 章宗長;俞揚;周志華;周韌哲 | 申請(專利權(quán))人: | 南京大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 不確定性 行為 先驗 控制 策略 離線 訓練 方法 | ||
本發(fā)明公開一種基于模型不確定性和行為先驗的控制策略離線訓練方法,通過在機械臂操作離線數(shù)據(jù)上訓練集成動力學模型來構(gòu)建對機械臂數(shù)據(jù)樣本的不確定性度量,并采用變分自編碼器來擬合收集該機械臂離線數(shù)據(jù)的行為先驗策略,在加權(quán)貝爾曼更新的框架下僅使用機械臂離線數(shù)據(jù)來訓練機械臂的控制策略。本發(fā)明能夠使機械臂控制策略在離線訓練的過程中有選擇性地利用機械臂的離線數(shù)據(jù)集,減小不可信的機械臂數(shù)據(jù)樣本對策略訓練的影響,同時使可信的機械臂數(shù)據(jù)樣本仍然能對策略訓練起到正向作用,能夠使得機械臂控制策略的離線學習過程更加穩(wěn)定并提升機械臂控制策略的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于模型不確定性與行為先驗的控制策略離線訓練方法,用于學習機械臂的控制策略。
背景技術(shù)
強化學習是機器學習中一個重要的分支領(lǐng)域,智能體可以借助強化學習方法,通過與環(huán)境交互得到獎賞或懲罰信號,并據(jù)此學習到能在環(huán)境中得到最高獎賞的策略。然而,強化學習方法通常需要不斷地與環(huán)境進行交互來獲取可供學習的經(jīng)驗,在機械臂相關(guān)的任務(wù)上,這些與操作環(huán)境的交互需要消耗大量的時間與經(jīng)濟成本。
離線強化學習為解決這一問題提供了一種新的思路,從一個先前收集到的機械臂操作數(shù)據(jù)集中學習策略,而不與環(huán)境進行交互,免去了在環(huán)境中采樣所需的時間、經(jīng)濟成本。
然而,由于采集機械臂操作數(shù)據(jù)的行為策略和當前待學習的控制策略存在的分布不匹配的問題,直接從機械臂操作離線數(shù)據(jù)中無法訓練出表現(xiàn)好的策略。對此,近年來的技術(shù)方案大都是基于策略分布限制或者價值保守估計,沒有仔細考慮不同的機械臂操作數(shù)據(jù)的差別,比如在機械臂操作數(shù)據(jù)中可能存在一些誤操作數(shù)據(jù),這些數(shù)據(jù)對機械臂控制策略的學習是不利的,限制了機械臂控制策略在使用這些數(shù)據(jù)進行離線學習后的性能。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有離線強化學習技術(shù)在學習機械臂控制策略中的問題與不足,本發(fā)明提供一種基于模型不確定性與行為先驗的控制策略離線訓練方法,通過在機械臂離線數(shù)據(jù)上訓練集成動力學模型與變分自編碼器來提供對機械臂操作數(shù)據(jù)的置信度區(qū)分,在加權(quán)貝爾曼更新的框架下來離線訓練機械臂的控制策略,能夠使得機械臂控制策略的離線學習過程更加穩(wěn)定并提升機械臂控制策略的性能。
技術(shù)方案:一種基于模型不確定性與行為先驗的控制策略離線訓練方法,在機械臂離線數(shù)據(jù)上訓練集成動力學模型來構(gòu)建對機械臂數(shù)據(jù)樣本的不確定性度量,并采用變分自編碼器來擬合收集該機械臂離線數(shù)據(jù)的行為先驗策略,讓機械臂控制策略不斷與集成動力學模型交互來獲取更多的機械臂操作數(shù)據(jù),在加權(quán)貝爾曼更新的框架下僅使用機械臂離線數(shù)據(jù)與模型數(shù)據(jù)來訓練機械臂的控制策略。
包括如下步驟:
步驟1:在機械臂裝配操作數(shù)據(jù)集上訓練集成動力學模型,所得模型可以模擬真實的機械臂操作環(huán)境;
步驟2:在機械臂裝配操作數(shù)據(jù)集上訓練變分自編碼器,所得行為先驗?zāi)P涂梢阅M采集這些數(shù)據(jù)的行為策略;
步驟3:開始訓練基于行為者-評論家的策略網(wǎng)絡(luò),所述基于行為者-評論家的策略網(wǎng)絡(luò)為機械臂控制策略,控制策略與集成動力學模型交互生成機械臂的操作樣本,存入模型數(shù)據(jù)集中;
步驟4:從混合數(shù)據(jù)集中采樣小批量的機械臂操作樣本,計算樣本的模型不確定性與解碼器重構(gòu)概率,并計算樣本的貝爾曼更新權(quán)重;
步驟5:使用采樣的小批量機械臂操作樣本來進行加權(quán)貝爾曼更新訓練值函數(shù)、目標值函數(shù)與控制策略;
步驟6:重復步驟3-5,控制策略訓練達到收斂后,完成訓練過程。
對機械臂控制策略所要面對的機械臂操作環(huán)境進行建模得到集成動力學模型,機械臂控制策略可與集成動力學模型交互來擴充機械臂的數(shù)據(jù)集,并基于集成動力學模型誤差提供機械臂狀態(tài)-動作對的不確定性估計;
對采集機械臂離線數(shù)據(jù)的行為策略進行建模,得到行為先驗?zāi)P停袨橄闰災(zāi)P湍芴峁C械臂狀態(tài)-動作對在行為策略下的出現(xiàn)概率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310064893.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 提供導頻或前導信號中ZADOFF-CHU序列的有限使用的設(shè)備、方法和計算機程序產(chǎn)品
- 確定定時不確定性的方法和裝置
- 一種結(jié)構(gòu)噪聲不確定性優(yōu)化系統(tǒng)及方法
- 一種基于信息熵的地下水數(shù)值模擬不確定性定量分析方法
- 一種基于QMU的顫振裕度評估方法
- 一種基于RSSI通信距離估計的不確定性分析方法
- 一種定量獲得三維礦床地質(zhì)模型不確定性的方法
- 一種降低和展現(xiàn)流式大數(shù)據(jù)不確定性的系統(tǒng)
- 一種數(shù)據(jù)聚類方法及裝置
- 一種考慮結(jié)構(gòu)參數(shù)不確定性的結(jié)構(gòu)系統(tǒng)隨機振動分析方法





