[發(fā)明專利]一種基于深度逆向強(qiáng)化學(xué)習(xí)的機(jī)器人亂序工件抓取方法有效
| 申請?zhí)枺?/td> | 201910550243.5 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110238855B | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計)人: | 傅建中;王鄭拓;徐月同;楊波 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 逆向 強(qiáng)化 學(xué)習(xí) 機(jī)器人 工件 抓取 方法 | ||
1.一種基于深度逆向強(qiáng)化學(xué)習(xí)的機(jī)器人亂序工件抓取方法,其特征在于,包括如下步驟:
步驟一,機(jī)器人末端側(cè)方固定的視覺傳感器拍攝工件平臺上的工件,獲得待抓取的工件圖像,并傳輸給信息處理單元;
步驟二,信息處理單元將拍攝的圖像生成三維點云數(shù)據(jù),并采用聚類算法提取目標(biāo)工件的三維點云作為點云信息;
步驟三,將點云信息輸入到深度逆向強(qiáng)化學(xué)習(xí)處理中,計算機(jī)器人運(yùn)動路徑,計算獲得的機(jī)器人運(yùn)動路徑輸出給機(jī)器人控制器,控制機(jī)器人實施工件抓取;
所述步驟三中的深度逆向強(qiáng)化學(xué)習(xí)處理,具體包括:
包括有生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的兩部分;
A)所述的生成網(wǎng)絡(luò)主要由第一點云處理單元和路徑生成單元串聯(lián)而成,第一點云處理單元用以處理輸入的點云信息輸入到路徑生成單元,路徑生成單元根據(jù)輸入的點云信息產(chǎn)生機(jī)器人運(yùn)動路徑;
第一點云處理單元包括兩個分別用于位置生成和姿態(tài)生成的結(jié)構(gòu)相同的第一子網(wǎng)絡(luò)結(jié)構(gòu),具體包括依次連接的隨機(jī)采樣層、感知層和池化層,感知層是由多個多層感知器并聯(lián)組成,同一感知層中各個多層感知器共享/具有相同的參數(shù);隨機(jī)采樣層接收輸入的點云信息并進(jìn)行隨機(jī)采樣,然后將隨機(jī)采樣的各組數(shù)據(jù)分別輸入到各個多層感知器,所有多層感知器處理輸出到同一池化層中,池化層的輸出到對應(yīng)的路徑生成單元各自的一個多層感知器中;
路徑生成單元有兩個多層感知器和一個路徑生成模塊,兩個多層感知器分別接收點云處理單元中兩個第一子網(wǎng)絡(luò)結(jié)構(gòu)的池化層的輸出信息,然后分別生成輸出機(jī)器人末端的位置信息和姿態(tài)信息,最后傳輸給路徑生成模塊生成機(jī)器人的運(yùn)動路徑;
B)所述的判別網(wǎng)絡(luò)主要由第二點云處理單元和路徑處理單元以及聯(lián)合處理單元組成,第二點云處理單元和路徑處理單元并聯(lián)連接到聯(lián)合處理單元的輸入端,點云處理單元用以處理輸入的點云信息,路徑處理單元用以處理輸入的運(yùn)動路徑,聯(lián)合處理單元接收點云處理單元和路徑處理單元的輸出信息,處理預(yù)測出分類判別值;
第二點云處理單元包括兩個分別用于位置生成和姿態(tài)生成的結(jié)構(gòu)相同的第二子網(wǎng)絡(luò)結(jié)構(gòu),具體包括依次連接的隨機(jī)采樣層、感知層和池化層,感知層是由多個多層感知器并聯(lián)組成,同一感知層中各個多層感知器共享/具有相同的參數(shù);隨機(jī)采樣層接收輸入的點云信息并進(jìn)行隨機(jī)采樣,然后將隨機(jī)采樣的各組數(shù)據(jù)分別輸入到各個多層感知器,所有多層感知器處理輸出到同一池化層中,池化層的輸出到對應(yīng)的路徑處理單元各自的一個多層感知器中;
聯(lián)合處理單元由三個多層感知器組成,其中兩個多層感知器分別接收點云處理單元中兩個池化層的輸出,另一個多層感知器接收前兩個多層感知器以及路徑處理單元中的多層感知器的輸出信息,最后輸出判別值;
路徑處理單元由一個多層感知器組成,接收生成網(wǎng)絡(luò)的路徑生成單元生成的機(jī)器人運(yùn)動路徑信息,并輸出到聯(lián)合處理單元的另一個多層感知器中。
2.根據(jù)權(quán)利要求1所述的一種基于深度逆向強(qiáng)化學(xué)習(xí)的機(jī)器人亂序工件抓取方法,其特征在于:所述步驟三的深度逆向強(qiáng)化學(xué)習(xí)處理中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)采用以下方式建立示教數(shù)據(jù)和自主生成數(shù)據(jù)進(jìn)行訓(xùn)練:
S1,視覺傳感器拍攝工件的圖像作為工件圖像,將工件圖像轉(zhuǎn)換成三維點云;
S2,示教機(jī)器人進(jìn)行抓取工件,記錄機(jī)器人抓取的姿態(tài)信息;
S3,將S1和S2的數(shù)據(jù)進(jìn)行匹配對應(yīng)組成一組示教數(shù)據(jù);
S4,重復(fù)S1~S3若干次,獲得若干組示教數(shù)據(jù);
S5,將S1獲得的三維點云數(shù)據(jù)導(dǎo)入到生成網(wǎng)絡(luò)中生成機(jī)器人運(yùn)動路徑;
S6,將S1和S5的數(shù)據(jù)進(jìn)行匹配對應(yīng)組成一組自主生成數(shù)據(jù);
S7,重復(fù)S5~S6若干次,獲得若干組自主生成數(shù)據(jù);
S8,將示教數(shù)據(jù)和自主生成數(shù)據(jù)輸入到判別網(wǎng)絡(luò),采用梯度下降的方法僅對判別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得訓(xùn)練后的判別網(wǎng)絡(luò);
S9,將S1獲得的三維點云輸入到生成網(wǎng)絡(luò),固定保持判別網(wǎng)絡(luò)的參數(shù),對判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò)采用梯度上升的方法一起進(jìn)行訓(xùn)練,使得判別網(wǎng)絡(luò)最終輸出的判別值接近示教的判別值,獲得訓(xùn)練后的生成網(wǎng)絡(luò);
S10,利用S9獲得的訓(xùn)練后的生成網(wǎng)絡(luò)更新重復(fù)S5中的生成網(wǎng)絡(luò),重復(fù)S5~S9若干次進(jìn)行迭代處理,不斷迭代優(yōu)化判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直至滿足收斂條件結(jié)束。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910550243.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





