[發明專利]一種基于深度學習的目標識別與抓取定位方法有效
| 申請號: | 201810248258.1 | 申請日: | 2018-03-24 |
| 公開(公告)號: | CN108648233B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 賈松敏;鞠增躍;張國梁;李秀智;張祥銀 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06T7/11;G06T7/194;G06V10/762;G06V10/764;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 目標 識別 抓取 定位 方法 | ||
1.一種基于深度學習的目標識別與抓取定位方法,其特征在于:
首先,利用Kinect相機采集場景的深度和彩色圖像,然后使用Faster R-CNN深度學習算法識別場景目標,根據識別的類別選擇抓取的目標區域,并作為GrabCut圖像分割算法的輸入,通過圖像分割獲取目標的輪廓,進而獲取目標的具體位置,并作為級聯神經網絡的輸入進行最優抓取位置檢測,最終獲取機械臂的抓取位置和抓取姿態;
(1)基于深度學習的目標識別;
步驟一,Kinect采集場景的深度圖像和彩色圖像;
步驟二,將整幅圖像輸入到CNN神經網絡,提取圖像的特征;
步驟三,用PRN生成建議窗口;
采用多任務損失函數來最小化目標函數,目標函數定義為:
其中i表示一個小批量樣本的索引;pi表示小批量樣本的索引i的目標的概率;真實標簽為1時表示為正標簽,為0時表示負標簽;ti表示預測邊界的四個參數化變量;表示正標簽小批量樣本的索引i對應的真實框的坐標向量;Lcls和Lreg分別表示分類損失和回歸損失,Ncls和Nreg表示歸一化參數;λ表示平衡權重;
步驟四,將建議窗口映射到CNN的最后一層卷積特征圖上;
步驟五,通過ROI池化層使個ROI生成固定尺寸的特征圖;
步驟六,利用Softmax Loss即探測分類概率和Smooth L1 Loss即探測邊框回歸對目標進行分類與定位;
(2)圖像超像素分割;
簡單線性迭代聚類是在K-means聚類算法的基礎上,拓展而來的一種簡單而高效的構建超像素的方法;采用超像素算法將圖像預分割成塊狀圖,能夠減少構建網格圖的定點數,進而縮短計算時間;具體超像素分割步驟如下;
步驟一,以步長為S的網絡中心初始化聚類中心點cj={lj,aj,bj,xj,yj}T,其到超像素中心的距離測量ds如式(2)所示;其中lj、aj和bj表示CLELAB顏色空間的l、a和b顏色通道信息,xj,yj表示聚類中心點的坐標,j表示像素點的序號數;
其中,p表示空間和像素顏色的相對重要性的度量,dlab代表顏色距離,dxy代表空間距離;
步驟二,將聚類中心點移至鄰域內梯度最小的位置;
步驟三,在每個種子點周圍的鄰域內為像素點分配類標簽即屬于哪個聚類中心;
步驟四,通過計算搜索到的像素點和該種子點的距離,更新聚類中心;
步驟五,計算剩余誤差,重復步驟三到步驟五直至誤差收斂;
(3)基于GrabCut算法提取目標輪廓;
GrabCut是基于GraphCuts迭代式圖像分割算法,采用高斯混合模型代替灰度直方圖,實現彩色圖像分割;定義Gibbs能量函數為
E(a,k,θ,z)=U(a,k,θ,z)+V(a,z) (3)
其中a為不透明度,a∈[0,1],0為背景,1為前景目標;k是像素的高斯分量;θ為像素屬于前景/背景的概率,z是圖像像素;U稱之為數據項,其定義為
D(an,kn,θ,zn)=-logp(zn|an,kn,θ)-logπ(an,kn) (4)
其中:p(.)為高斯概率分布,π(.)為混合權重系數;V稱之為平滑項,其定義為
其中:e=0;(m,n)表示兩個相鄰像素點m和n;C是相鄰像素點對應的集合;[.]是取值為0或1的函數,當且僅當an≠am時,[an≠am]=1,當且僅當an=am時,[an≠am]=0;β=(2<||zm-zn||2>)-1,.表示樣本的數學期望;
在設置適當閾值的前提下,使用超像素分割算法對圖像進行預處理,得到區域內相似度比較高且拓撲結構比較規整的塊狀區域;進而使用各個區域中的RGB均值代替區域內像素值進行GMM參數估計并構建精簡的網格圖,最后,為了保證圖像分割精度,使用得到的GMM參數對原始圖像進行分割,從而達到提高分割速度而精度不減的目的;具體的改進的GrabCut分割步驟如下;
步驟一,根據塊索引,初始化GMM參數;
步驟二,將預處理階段獲得的原圖像進行三元圖初始化,矩形以外的區域為背景區域TB,目標區域TF,未知區域TU,其中
步驟三,將背景區域像素點的透明度設值設為0,未知區域像素的透明度值設為1;如果像素屬于TB,則像素的透明值為0;如果像素屬于TU,則像素點的透明值為1;前景和背景的高斯混合模型分別采用像素透明值為1和像素透明值為0的點進行初始化;
步驟四,迭代估計GMM參數:1)GMM標號;2)學習GMM參數;3)根據分塊之間的鄰接關系構建網絡圖,并用最大流/最小割算法進行分割;4)迭代步驟1~3,直到算法收斂;
步驟五,根據得到的GMM參數對原始圖像構造S-T網格圖,使用最大流/最小割算法進行分割;
步驟六,輸出分割結果,提取目標物體輪廓;
(3)最優抓取位置檢測;
通過(1)、(2)和(3)三個過程可以獲得目標的位置和輪廓,但是機械臂的抓取不僅需要目標的坐標信息,還需要目標的抓取姿態信息;為了求解目標的抓取姿態,采用最優抓取位置檢測算法,該算法是由一個深度網絡組成的兩步級聯神經網絡系統,首先選擇一組包含目標的候選抓取區域,然后在前一步的基礎上在候選區域上進行檢測并獲取最優的抓取位置;具體的過程分為以下幾個步驟;
步驟一,根據分割結果獲取目標最小的矩形區域;
分割結果得到了目標的輪廓,根據目標的輪廓構建目標的最小矩形圖像;并根據目標的最小矩形區域分別從彩色圖、深度圖和基于深度圖的表面法向量上截取出來;
步驟二,生成若干組搜索框;
對截取的區域做旋轉、白化數據以及保持縱橫比操作,生成若干組的搜索框,當生成搜索框時,這組搜索框就被轉換成為一個24×24×7大小的輸入特征,24×24為搜索框的歸一化尺寸,7為通道數;
步驟三,深度神經網絡對抓取目標分類和預測;
當預處理階段完成之后,特征數據將會被送到包含兩個隱含層的神經網絡中,對于神經網絡權值訓練的目的是找到一個最優單一的抓取框,使得機械臂抓到目標的概率最大,概率函數的表達式為(6)所示:
D表示特定抓取框的位置、大小和方向,D*表示最優抓取矩形框,其中φ(D)函數表示D的提取矩形框標準的輸入表示;Θ表示神經網絡的權值;表示函數的輸出,取值為{0,1}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810248258.1/1.html,轉載請聲明來源鉆瓜專利網。





