[發明專利]一種基于改進深度神經網絡的蘋果采摘方法在審
| 申請號: | 202110031817.5 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112734727A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 李靜;黃友銳;韓濤;蘭世豪;江靈雅 | 申請(專利權)人: | 安徽理工大學 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06T7/11;G06T7/194;G06T7/55;G06N3/04;G06N3/08;A01D91/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 232001 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 深度 神經網絡 蘋果 采摘 方法 | ||
1.基于改進深度神經網絡的蘋果采摘方法,其特征在于所述方法包括下述步驟:
(1)采用雙目深度相機從田間拍攝圖片,獲取在不同時間段、不同光照條件下蘋果的圖片;
(2)從拍攝的蘋果圖片中抽取圖片樣本并對其進行預處理:
(2a)對采集到的圖片進行高斯濾波,平滑圖像,去除噪聲;
(2b)對圖片進行圖像增強處理,以突出蘋果特征,提高圖像的清晰度;
(2c)采用色彩空間參照表的方法進行圖像分割,去除圖像中的背景,得到包含蘋果區域的圖像,由于采摘機器人受工作環境光強變化影響較大,對于HSV,YCbCr和L*a*b*3種模型,分別取與亮度無關的2個分量H和S,Cr和Cb,a*和b*,它們構成了二維色彩空間,空間參照表的建立過程如下:
(2d)建立一個256@256的整數數組(對應二維色彩空間),并初始化為零;
(2e)將樣本像素從RGB色彩空間轉化到指定的色彩空間(如HSV和L*a*b*等),并將各個分量均映射到0~255的范圍內;
(2f)在指定二維色彩空間(如HS和a*b*,即第(2d)步建立的數組)統計樣本像素,得到二維色彩分布密度圖,也是灰度直方圖在二維色彩空間的擴展;
(2g)將第(2f)步得到的二維色彩分布密度圖視作一灰度圖,取合適的閾值,將其二值化,得到一個二值圖像;
(2h)采用改進的膨脹、腐蝕算法對第(2g)步得到的二值圖像進行一系列數學形態學的運算,最后得到的二值圖像所對應的二維數組就是所求的色彩空間參照表;
(2i)果實目標的提取:在每個像素點(不管它是否為目標像素點)的5@5鄰域內統計目標像素點的個數,超過半數時則認為該點為目標像素點,否則認為是非目標像素點,然后用區域標志算法找出各個果實的區域,并得到這些區域的外接矩形,從而完成蘋果目標的提取;
(3)對蘋果的不同大小、不同角度和不同光照的圖像采集500張,選取400張圖片作為神經網絡訓練樣本,選取剩下的100張為測試樣本;
(4)構建卷積神經網絡并用訓練數據集進行訓練,本發明方法由兩個神經網絡組成,兩個神經網絡的輸出由一個優化模塊組合以計劃抓取,抓取建議網絡GPNet輸出相對于相機幀cTζ∈SE(3).的抓取姿勢,三維遞歸重建神經網絡輸出對象的三維重建,提供對象被遮擋部分的形狀的合理估計,兩個網絡的輸出通過將抓取命題cTζ投影到重構點云中的最近點來組合,從而得到一個精確的抓取命題cTζ+,由于相機相對于機械手的姿勢是已知的,因此可以將相機幀抓取轉換為機器人幀以供機器人執行:
GPNet的體系結構由并行ResNet-34模塊組成,它的輸入是一對對齊的灰度和深度圖像,然后后面是兩個完全連接的層,輸出回歸到一個向量,這表示一個齊次變換它是(相對于相機的)抓取姿勢的估計值,前3個值(t1、t2、t3)表示夾持器在相機坐標框中所需的(x、y、z)位置,最后9個值表示一個序列化的三維旋轉矩陣,ResNet-34主要由L個殘差塊,1個平均池化層,1個最大池化層和1個全連接層組成,每個殘差塊都由2個3×3卷積層和2個ReLU單元構成,每個殘差單元可以表示為:其中,xl和xl+1分別表示第L個殘差單元的輸入和輸出,F是殘差函數,表示學習到的殘差,而h(XL)=XL表示恒等映射,f是ReLu激活函數,因此從淺層l到深層L的學習特征為
構建完GPNet后,使用訓練數據集進行抓取建議網絡訓練,訓練步驟如下:
(4a)向GPNet網絡中輸入圖片樣本,該網絡的輸入為(Ig,Id),即灰度和深度圖像,輸出為相應的地面真值t*;
(4b)通過網絡逐步計算得到預測值
(4c)根據地面真實抓取t*計算損失,損失體現了預測和地面真值的接近程度,是平移和旋轉分量的加權和:其中是歐氏距離損失的平方是預測旋轉矩陣與地面真旋轉矩陣轉置的乘積的平方偏差在訓練GPNET時使用權重λT=λR,學習率為1X10-4的Adam優化器在數據集上進行訓練;
(5)構建三維重建網絡SRNet,本發明使用了一種三維遞歸重建神經網絡(3D-R2N2)該網絡能夠將來自不同角度的對象實例構建出它的三維重建,每個3D-R2N2由一個編碼器、一個3D-LSTM和一個解碼器組成,該網絡的工作過程如下:
(5a)將樣本圖像給定到輸入層;
(5b)使用CNN將圖像編碼為特征,編碼器由2D卷積層、池化層、漏校正線性單元和完全連接層組成,輸入圖像經過編碼器逐層學習來獲得圖像的低維特征,為了改進較深網絡的優化性能,在編碼器的標準層之間添加剩余連接,同時為了匹配卷積后的信道數,將1X1卷積應用到深度殘差網絡中,然后將輸出展平傳遞到完全連接層,這樣編碼器就將輸入圖像X編碼成低維特征T(x);
(5c)將來自編碼器的特征圖輸入到3D-LSTM,3D-LSTM由一組具有受限連接的結構化LSTM單元組成,每個單元通過3×3×3卷積從編碼器接收相同的特征向量,并從其鄰域接收隱藏狀態作為輸入,每個單元負責重構最終輸出的特定部分,編碼特征及隱藏狀態通過3D-LSTM后會有選擇性的更新單元狀態或者通過關閉輸入門保持狀態,在三維網格中,有N×N×N3D-LSTM單元,其中N是3D-LSTM網格的空間分辨率,前向傳播在每個索引位置的過程為ft=σ(WfT(xt)+Uf*ht-1+bf),it=σ(WiT(xt)+Ui*ht-1+bi),St=ft⊙st-1+it⊙tanh(WsT(xt)+Us*ht-1+bs),ht=tanh(st);
其中it,ft,分別表示輸入門、和遺忘門,st和ht分別指存儲單元和隱藏狀態,用⊙表示元素乘法,下標t表示時刻t的激活,W(·),U(·)分別是變換當前輸入xt和先前隱藏狀態ht-1的矩陣,b(·)表示偏差,用*表示卷積運算,與標準LSTM不同,此網絡沒有輸出門,因為只在最后提取輸出,通過移除冗余的輸出門,可以減少參數的數量;
(5d)通過解碼器解碼LSTM單元的隱藏狀態并生成3D概率體素重建。解碼器是三維反卷積神將網絡(3D-DNCC),使用了一個簡單的5卷積的解碼器網絡并添加了4剩余連接的深度殘差網絡,來自3D-LSTM的隱藏狀態通過解碼器的反卷積層、非線性校正層、反池化層逐層學習,最后是一個激活層,使用激活函數將最終輸出轉換為體素在某處的占用概率;
(5e)網絡的損失函數定義為體素交叉熵之和,讓每個體素(i,j,k)的最終輸出為伯努利分布[1-p(i,j,k),p(i,j,k)],其中省略了對輸入χ={xt}t∈{1,...,T}的依賴關系,并讓相應的基本真值占有率為y(i,j,k)∈{0,1}即L(χ,y)=∑y(i,j,k)log(p(i,j,k))+(1-y(i,j,k))log(1-p(i,j,k));
(6)優化抓取部分,為了實現機器人精確抓取果實,使用迭代最近點(ICP)算法將所提出的抓取投影到重建的曲面上,ICP算法的流程:
(6a)在目標點云P中取點集pi∈P;
(6b)找出源點云Q中的對應點集qi∈Q,使得||qi-pi||=min;
(6c)計算旋轉矩陣R和平移矩陣t,使得誤差函數最小;
(6d)對pi使用上一步求得的旋轉矩陣R和平移矩陣t進行旋轉和平移變換,得到新的對應點集pi'={pi'=Rpi+t,pi∈P};
(6e)計算pi'與對應點集qi的平均距離;
(6f)如果d小于某一給定的閾值或者大于預設的最大迭代次數,則停止迭代計算,否則返回第(6b)步,直到滿足收斂條件為止;
(5)用步驟(3)得到得100張圖片對網絡進行測試,驗證網絡;
(6)利用訓練好的網絡對蘋果進行實時抓取,以實現對于成熟果實的準確定位,提高抓取性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽理工大學,未經安徽理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110031817.5/1.html,轉載請聲明來源鉆瓜專利網。





