[發明專利]一種基于多掩模卷積神經網絡的搬運機器人識別目標方法有效
| 申請號: | 202010084190.5 | 申請日: | 2020-02-10 |
| 公開(公告)號: | CN111368637B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 謝非;陸飛;楊繼全;吳俊;汪璠;吳啟宇;茆國婷;陳書穎;劉益劍;章悅 | 申請(專利權)人: | 南京師范大學;南京智能高端裝備產業研究院有限公司 |
| 主分類號: | G06V20/10 | 分類號: | G06V20/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210042 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多掩模 卷積 神經網絡 搬運 機器人 識別 目標 方法 | ||
1.一種基于多掩模卷積神經網絡的搬運機器人識別目標方法,其特征在于,包括以下步驟:
步驟1,搭建多掩模卷積神經網絡,并確定網絡結構;
步驟2,選擇網絡優化器,使用PASCAL?VOC數據集作為多掩模卷積神經網絡的訓練數據集,經過多掩模卷積神經網絡模型充分訓練,得到訓練好的多掩模卷積神經網絡;
步驟3,搬運機器人通過攝像頭采集視頻文件,然后將采集的視頻文件逐幀轉換為彩色圖像,并對彩色圖像統一尺寸大小;
步驟4,搬運機器人利用訓練好的多掩模卷積神經網絡對彩色圖像中出現的目標生成目標的坐標位置和目標類別,同時生成目標的實例掩模,從而完成目標的識別;
步驟1包括:
所述多掩模卷積神經網絡包括五個部分,具體搭建方法如下:
第一部分包括一個輸入層和三個卷積層,用于對數據進行卷積特征提取,第一部分的輸入來自于PASCAL?VOC數據集,PASCAL?VOC數據集里的每一張圖像大小為500*500,每一張圖像送到輸入層;輸入層后面是第一部分的第一個卷積層,第一部分的第一個卷積層選用了16個3*3的卷積核,步長為1,填充數量為1,卷積層的輸出尺寸計算公式如下所示:
其中,Z是卷積輸出數據的長度,W是卷積輸入數據的長度,P是填充數量,F是卷積核的長度,S表示步長;
對于第一部分的第一個卷積層,由卷積層的輸出尺寸計算公式(1)計算得到第一部分的第一個卷積層的輸出大小是500*500*16;
在第一部分的第一個卷積層后使用線性整流函數作為激活函數,將經過激活函數的數據送入第一部分的第二個卷積層,第一部分的第二個卷積層采用32個3*3卷積核,步長為1,填充數量為1,則根據卷積層的輸出尺寸計算公式(1),第一部分第二個卷積層的輸出大小是500*500*32;
第一部分的第二個卷積層后也使用線性整流函數作為激活函數,將經過激活函數的數據送入第一部分的第三個卷積層,第一部分的第三個卷積層采用64個3*3卷積核,步長為2,填充數量為1,則根據卷積層的輸出尺寸計算公式(1),第一部分的第三個卷積層的輸出大小是250*250*64;
第二部分包括一個卷積層和兩個全連接層;第一部分的第三個卷積層的輸出用來輸入到第二部分的第一個卷積層,第二部分的第一個卷積層采用128個3*3卷積核,步長為1,填充數量為1,則根據卷積層的輸出尺寸計算公式(1),第二部分的第一個卷積層的輸出大小是250*250*128;
第二部分的第一個卷積層后使用線性整流函數作為激活函數,將經過激活函數的數據送入第二部分的第一個全連接層,第二部分的第一個全連接層有N1個神經元,對應N1個目標類別,第二部分的第一個全連接層后面使用softmax函數,得到N1個目標類別的置信度系數,置信度系數指目標類別的概率;同時對經過激活函數的第二部分的第一個卷積層送入第二部分的第二個全連接層,第二部分的第二個全連接層有N2個神經元,對應N1個目標類別的候選框位置,每個候選框位置由坐標(x,y,l,h)確定,x代表候選框左上角頂點在多掩模卷積神經網絡輸入層的每一張圖像中距離每一張圖像左上角頂點的水平距離,y代表候選框左上角頂點在多掩模卷積神經網絡輸入層的每一張圖像中距離每一張圖像左上角頂點的豎直距離,1代表候選框的長度,h代表候選框的高度;
第三部分包括三個卷積層,將由第一部分的第三個卷積層的輸出送入第三部分的第一個卷積層,第三部分的第一個卷積層采用64個3*3卷積核,步長為1,填充數量為1,則根據卷積層的輸出尺寸計算公式如下所示:
Z1=(W1-1)×S1-2×P1+F1??????????(2)
其中,Z1是卷積輸出數據的長度,W1是卷積輸入數據的長度,P1是填充數量,F1是卷積核的長度,S1表示步長;根據卷積層的輸出尺寸計算公式(2),第三部分第一個卷積層的輸出大小是250*250*64;第三部分的第一個卷積層后也使用線性整流函數作為激活函數,將經過激活函數的數據送入第三部分的第二個卷積層,第三部分的第二個卷積層采用64個4*4卷積核,步長為2,填充數量為1,則根據卷積層的輸出尺寸計算公式(2),第三部分第二個卷積層的輸出大小是500*500*64;第三部分的第二個卷積層后也使用線性整流函數作為激活函數,將經過激活函數的數據送入第三部分的第三個卷積層,第三部分的第三個卷積層采用1000個3*3卷積核,步長為1,填充數量為1,則根據卷積層的輸出尺寸計算公式(2),第三部分的第三個卷積層的輸出大小是500*500*1000;
第四部分包括三個卷積層,第三部分的第三個卷積層后也使用線性整流函數作為激活函數,將經過激活函數的數據送入第四部分的第一個卷積層,第四部分的第一個卷積層采用4096個3*3卷積核,步長為2,填充數量為1,則根據卷積層的輸出尺寸計算公式(1),第四部分的第一個卷積層的輸出大小是250*250*4096;第四部分的第一個卷積層后也使用線性整流函數作為激活函數,送入第四部分的第二個卷積層,第四部分的第二個卷積層采用1000個3*3卷積核,步長為1,填充數量為0,則根據卷積層的輸出尺寸計算公式(1),第四部分第二個卷積層的輸出大小是125*125*1000,第四部分的第二個卷積層后也使用線性整流函數作為激活函數,送入第四部分的第三個卷積層,第四部分的第三個卷積層采用1000個5*5卷積核,步長為1,填充數量為0,則根據卷積層的輸出尺寸計算公式(1),第四部分的第三個卷積層的輸出大小是31*31*1000,生成目標的1000個掩模,掩模指通過對圖像選定區域用顏色進行覆蓋的區域;
第五部分包括一個卷積層和兩個全連接層,第三部分的第三個卷積層后也使用線性整流函數作為激活函數,將經過激活函數的數據送入第五部分的卷積層,第五部分的卷積層采用1024個3*3卷積核,步長為2,填充數量為1,則根據卷積層的輸出尺寸計算公式(1),第五部分的卷積層的輸出大小是250*250*1024;第五部分的卷積層后使用線性整流函數作為激活函數,將經過激活函數的數據送入第五部分的第一個全連接層,第五部分的第一個全連接層有N3個神經元;同時對經過激活函數的第五部分的第一個全連接層送入第五部分的第二個全連接層,第五部分的第二個全連接層有N4個神經元,對應目標的N1個掩模系數,掩模系數指對圖像選定區域用顏色進行覆蓋的區域的大小;
步驟2包括:
步驟2-1,任意選擇PASCAL?VOC數據集中里的D張真實圖片,并且將D張圖片使用雙線性插值法得到尺寸為500*500的圖片;
步驟2-2,將D張圖片按照4:1比例劃分為訓練集和測試集,在訓練的過程中,將D張圖片里的每D1張圖片作為一個訓練單元;
步驟2-3,損失函數使用交叉熵損失函數,網絡優化器采用亞當優化器,對多掩模卷積神經網絡進行充分訓練,得到訓練好的多掩模卷積神經網絡模型;
步驟3包括:
步驟3-1,搬運機器人通過攝像頭采集視頻文件;
步驟3-2,將采集的視頻文件每隔5幀截取一張圖像;
步驟3-3,若截取的圖像為灰度圖像,采用灰度級-彩色變換法變成彩色圖像;
步驟3-4,對彩色圖像進行雙線性插值法變成尺寸大小為500*500,得到統一尺寸大小的彩色圖像;
步驟4包括:
步驟4-1,將步驟3-4得到的統一尺寸大小的彩色圖像輸入多掩模卷積神經網絡模型中進行識別目標;
步驟4-2,多掩模卷積神經網絡模型對每個目標都會生成1000個候選框,每個候選框都有對應的坐標位置(x,y,l,h)和目標類別的置信度系數;
步驟4-3,多掩模卷積神經網絡模型對每個目標生成1000個掩模和1000個掩模系數;
步驟4-4,使用非極大值快速抑制算法得到每個目標的實際位置和實際類別;
步驟4-5,對每個目標生成的1000個掩模和1000個掩模系數通過線性組合進行合成,再經過tanh非線性激活函數得到每個目標的實例掩模;
步驟4-4包括:
步驟4-4-1,對每個目標里的1000個候選框按照對應的置信度系數的大小情況,由大到小排序;
步驟4-4-2,選中最大置信度系數對應的候選框,計算剩余候選框與最大置信度系數對應的候選框之間的IOU值,IOU值計算公式如下:
IOU=C/Y?????????????????????(3)
其中,C表示兩個候選框面積的交集,Y表示兩個候選框面積的并集;
步驟4-4-3,設定一個閾值t,根據公式(4)計算新的置信度系數:
其中M為最大置信度系數對應的候選框,si為剩余候選框,IOU(M,si)為M與si的IOU值,G為最大置信度系數對應的候選框經過公式(4)計算得到的新的置信度系數;
如果G=0,則刪除最大置信度系數對應的候選框;
步驟4-4-4,從剩余候選框中繼續選取一個最大置信度系數對應的候選框,重復4-4-1~步驟4-4-3,直到只剩一個候選框,候選框的坐標位置(x,y,l,h)就是目標的實際位置,最大置信度系數對應的目標類別就是目標的實際類別;
步驟4-5包括:
步驟4-5-1,每個目標生成的1000個掩模和1000個掩模系數通過線性組合進行合成得到合成掩模,線性組合公式(5)如下:
MU=PU*CU??????????????????????????(5)
其中MU為合成掩模,PU為掩模的31*31*1000的矩陣,CU為掩模系數1000*1的矩陣;
步驟4-5-2,將每個目標的合成掩模通過非線性激活函數tanh函數進行激活得到每個目標的實例掩模,實例掩模指每個目標識別后所要產生的掩模,tanh函數公式如下所示:
其中e=2.71828,x0為步驟4-5-1里得到的合成掩模MU。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京師范大學;南京智能高端裝備產業研究院有限公司,未經南京師范大學;南京智能高端裝備產業研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010084190.5/1.html,轉載請聲明來源鉆瓜專利網。





