[發(fā)明專利]一種基于視覺(jué)信息的深度強(qiáng)化學(xué)習(xí)DDPG算法的機(jī)械臂抓取控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202211218404.9 | 申請(qǐng)日: | 2022-10-05 |
| 公開(kāi)(公告)號(hào): | CN115464659B | 公開(kāi)(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 尤波;武江博;李佳鈺 | 申請(qǐng)(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號(hào): | B25J9/16 | 分類號(hào): | B25J9/16;B25J9/00 |
| 代理公司: | 北京圣州專利代理事務(wù)所(普通合伙) 11818 | 代理人: | 何世常 |
| 地址: | 150080 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視覺(jué) 信息 深度 強(qiáng)化 學(xué)習(xí) ddpg 算法 機(jī)械 抓取 控制 方法 | ||
本發(fā)明公開(kāi)了一種基于視覺(jué)信息的深度強(qiáng)化學(xué)習(xí)DDPG算法的機(jī)器臂抓取控制方法,旨在解決現(xiàn)有技術(shù)中機(jī)械臂工作場(chǎng)景靈活性差,場(chǎng)景變動(dòng)后,人工示教調(diào)試慢,效率低等技術(shù)問(wèn)題。該方法首先采用卷積神經(jīng)網(wǎng)絡(luò)并融合卡爾曼濾波,對(duì)待抓取的物體進(jìn)行實(shí)時(shí)檢測(cè)與跟蹤,并提取待抓取物體的平面3D位姿信息。設(shè)計(jì)一種基于末端執(zhí)行器速度平滑約束的示教機(jī)制,解決經(jīng)典DDPG網(wǎng)絡(luò)在初始化訓(xùn)練初由于動(dòng)作隨機(jī)導(dǎo)致的有效數(shù)據(jù)少,算法效率低的問(wèn)題;并設(shè)計(jì)基于能量約束歸一化非線性獎(jiǎng)勵(lì)函數(shù),把輸入到深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的數(shù)據(jù)解算至相同的區(qū)間,并且對(duì)變量進(jìn)行非線性的函數(shù)映射,使得網(wǎng)絡(luò)梯度下降的時(shí)候速率更快,提高訓(xùn)練效率和機(jī)械臂在靠近目標(biāo)物體附近時(shí)產(chǎn)生的抖動(dòng)問(wèn)題;基于仿真環(huán)境對(duì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并對(duì)待抓取物體位姿進(jìn)行顯示表達(dá),使得該算法在新對(duì)象和環(huán)境中具有更強(qiáng)的泛化能力,將快速遷移到真實(shí)世界的機(jī)械臂上面。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人應(yīng)用技術(shù)領(lǐng)域,特別涉及一種基于視覺(jué)信息的深度強(qiáng)化學(xué)習(xí)DDPG算法的機(jī)械臂抓取控制方法。
背景技術(shù)
伴隨著深度強(qiáng)化學(xué)習(xí)與機(jī)器人技術(shù)的不斷發(fā)展,智能機(jī)器人已經(jīng)向生產(chǎn)生活的各個(gè)領(lǐng)域不斷滲透,隨著智能機(jī)器人應(yīng)用領(lǐng)域的擴(kuò)大,機(jī)械臂的工業(yè)應(yīng)用場(chǎng)景愈加豐富,市場(chǎng)期望機(jī)械臂更加智能化成為機(jī)械臂技術(shù)發(fā)展的一個(gè)重要方向。傳統(tǒng)機(jī)械臂的應(yīng)用場(chǎng)景大多只能依照既定的程序,完成機(jī)械化的操作流程,在特定的流水線上使用人工示教的方式執(zhí)行任務(wù),雖然擁有很高的重復(fù)精度,但操作靈活性特別差,為此引入機(jī)器視覺(jué)和深度強(qiáng)化學(xué)習(xí)模塊,使機(jī)械臂的工作場(chǎng)景更加靈活,控制方式從原來(lái)的示教控制轉(zhuǎn)變?yōu)榭梢耘c環(huán)境進(jìn)行交互,進(jìn)而不斷改進(jìn),獲得更好的控制效果。
機(jī)器視覺(jué)和深度強(qiáng)化學(xué)習(xí)是人工智能主要的研究方向,計(jì)算機(jī)視覺(jué)的發(fā)展,為機(jī)器人的智能視覺(jué)感知提供了技術(shù)支持,而深度強(qiáng)化學(xué)習(xí)在機(jī)械臂中的應(yīng)用使得智能體在與環(huán)境的交互過(guò)程中,可以不斷迭代學(xué)習(xí)最優(yōu)策略,從而更好完成特定工作。
目前基于視覺(jué)的深度強(qiáng)化學(xué)習(xí)的機(jī)械臂抓取研究中,面臨兩個(gè)重要問(wèn)題:
1、視覺(jué)檢測(cè)信息直接作為強(qiáng)化學(xué)習(xí)的狀態(tài)導(dǎo)致的信息維度太高,從而導(dǎo)致強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)難以訓(xùn)練且不穩(wěn)定,并且可解釋性差的問(wèn)題;
2、深度強(qiáng)化學(xué)習(xí)算法在真實(shí)機(jī)械臂上應(yīng)用時(shí),其訓(xùn)練樣本采集困難,訓(xùn)練成本太高,且機(jī)械臂在目標(biāo)物附近時(shí)抖動(dòng)嚴(yán)重等缺點(diǎn)。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于視覺(jué)信息的深度強(qiáng)化學(xué)習(xí)DDPG算法的機(jī)械臂抓取控制方法,主要包括以下步驟:
步驟1:基于YOLOv4網(wǎng)絡(luò)融合卡爾曼濾波實(shí)現(xiàn)待抓取目標(biāo)的檢測(cè)與跟蹤,獲得目標(biāo)平面上的3D(x,y,θz)信息。
步驟1-1:使用coco數(shù)據(jù)集對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,根據(jù)待抓取物體,收集照片并按照voc數(shù)據(jù)集格式制作自己的數(shù)據(jù)集。在預(yù)訓(xùn)練模型基礎(chǔ)上,根據(jù)制作的數(shù)據(jù)集繼續(xù)訓(xùn)練網(wǎng)絡(luò)模型使網(wǎng)絡(luò)收斂。
步驟1-2:對(duì)目標(biāo)檢測(cè)的結(jié)果,融合卡爾曼濾波算法,實(shí)現(xiàn)目標(biāo)檢測(cè)與跟蹤。
步驟1-3:根據(jù)目標(biāo)檢測(cè)框和待檢測(cè)對(duì)象的顏色、形狀等特征,計(jì)算待測(cè)物體的最小外接矩形,然后提取最小外接矩形的重心坐標(biāo)(x,y)與繞z軸的轉(zhuǎn)角θz,得到目標(biāo)的3D(x,y,θz)信息。
步驟1-4:獲得目標(biāo)物體的3D位姿基礎(chǔ)上,根據(jù)機(jī)械臂實(shí)際工作場(chǎng)景的中的物理約束,令繞x,y軸的轉(zhuǎn)角θx=θy=0,測(cè)量獲取攝像頭到機(jī)械臂底座的垂直位置關(guān)系補(bǔ)全z軸坐標(biāo),根據(jù)坐標(biāo)變換關(guān)系,將物體在圖像坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換為基于機(jī)械臂底座的6D(x,y,z,θx,θy,θz)姿態(tài)信息。
步驟2:設(shè)計(jì)一種能量約束的歸一化非線性獎(jiǎng)勵(lì)函數(shù)Reward,通過(guò)在仿真中訓(xùn)練網(wǎng)絡(luò),使模型快速收斂,進(jìn)而對(duì)模型遷移訓(xùn)練控制現(xiàn)實(shí)中機(jī)械臂實(shí)現(xiàn)抓取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211218404.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





