[發明專利]基于深度學習的機器人目標識別與運動檢測方法、存儲介質及設備有效
| 申請號: | 202210415251.0 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114782691B | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 陳孟元;韓朋朋;王偉;徐韜;劉金輝 | 申請(專利權)人: | 安徽工程大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/80;G06V10/82;G06K9/62;G06T7/579;G06T7/73;G06T5/50;G06N3/04;G06N3/08 |
| 代理公司: | 蕪湖思誠知識產權代理有限公司 34138 | 代理人: | 項磊 |
| 地址: | 241000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 機器人 目標 識別 運動 檢測 方法 存儲 介質 設備 | ||
1.基于深度學習的機器人目標識別與運動檢測方法,其特征在于:包括下列步驟:
步驟S1、通過融合注意力機制和位置編碼的實例分割網絡對潛在動態物體所在區域添加掩膜;
步驟S2、利用場景中實例分割掩膜外的靜態特征點對相機位姿進行估計;
步驟S3,由于相機位姿與物體位姿投影在同一張圖像中具有耦合關系,通過相機位姿估計出物體位姿變換矩陣;
步驟S4,求出潛在運動物體上所有點運動視差中位數,并根據位姿優化過程得到運動不確定性微分熵,由運動視差與微分熵之間關系判斷出物體特征點運動狀態,從而判斷整個物體運動狀態;
步驟S5,剔除其中的動態物體,并修復剔除區域的靜態背景,根據信息熵與交叉熵篩選出其中的高質量特征點用于位姿估計與地圖構建;
所述步驟S1中,多注意力模塊由通道注意力機制和空間注意力機制兩個子網絡組成,將輸入特征圖F分別在通道維度和空間維度進行連接,并將對應獲取的通道維度特征圖F′與空間維度特征圖F″進行concat融合得到輸出F″′;以加強被遮擋物體部分的像素權重,提高遮擋物體的識別率,通道注意力機制作用為將特征圖中各層通道分配相應權重,空間注意力其主要作用為增加特征圖中被遮擋位置像素值權重,經過學習不斷調整各個權重值,進而引導網絡關注遮擋部分所在區域,由此對潛在動態物體所在區域添加掩膜;
所述步驟S1中,將H×W×C的輸入特征圖F輸入到通道注意力機制中,對特征圖進行全局注意平均池化和最大池化操作,從而得到特征圖每個通道的信息,通過平均池化和最大池化獲得的特征Favg與Fmax經過全連接層FC模塊加強通道之間關聯性,并對各通道權重進行重新分配,更好地對遮擋特征進行學習,經過通道注意力機制獲得的輸出fv計算方式如下所示:
fv=σ((Favg+Fmax)ηβ)
其中,σ表示Sigmoid函數,η表示ReLU函數,β為全連接層的參數,最后用fv對輸入特征圖F進行逐層通道加權得到通道維度特征圖F′,H、W和C分別表示高、寬和通道數;
步驟S1中,還將輸入特征圖F輸入空間注意力機制,通過平均池化和最大池化后進行concat融合形成H×W×2特征圖fc,再通過3×3×1卷積層和Sigmoid函數處理得到空間注意圖fu,其計算方式如下所示:
fu=σ(c(fc))
其中,fu為空間注意圖,fc為H×W×2特征圖,σ表示Sigmoid函數,c為3×3×1卷積網絡,將fu與輸入特征圖F連接得到經空間注意力加權后的空間維度特征圖F″;
所述步驟S1中提出一種相對位置編碼算法,該算法使用點積計算輸入元素之間相關性分數eij,其計算方式如下所示:
其中,eij為輸入元素之間相關性分數,σ為可訓練參數初始值為1,為二維相對位置權重,且與transformer網絡中的query參數交互;WQ、WK為可訓練參數矩陣;Pi、Pj為圖像塊的輸入,i、j為輸入圖像塊序號,對應前述的像素Ii,Ij,dz表示輸出矩陣維度;將相對位置編碼融入Transformer網絡構建融合相對位置編碼Transformer模塊,通過像素間距離重新分配像素權重,加強遮擋物體與被遮擋物體之間邊界語義信息,提高被遮擋動態物體分割邊界的精確度;
步驟S2中,機器人在實時運行過程中,在已知攝像機標定參數和特征點深度前提下,將空間中靜態點m從參考幀Fk-1關聯到后一幀Fk,其計算方式為:
mk=Δ[HcΔ-1Ik-1(mk-1,dk-1)]
其中,Δ和Δ-1分別對應投影函數和反向投影函數,該函數是由相機內參與外參構成,Hc∈SE(3)為相機姿態的相對變換矩陣,SE(3)為李代數矩陣;Ik-1為空間靜態點投影到Fk-1中3D點,坐標為(mk-1,dk-1),其中mk-1為該點在幀Fk-1中的2D像素坐標,dk-1為該點在幀Fk-1中的深度;mk為空間靜態點投影到Fk中2D像素坐標;
相機位姿求解公式如下所示,通過計算重投影誤差求解得到相機位姿,
e(Hc)=m′k-Δ[Ik-1(mk-1,dk-1)Δ-1Hcexp(hc)]
其中,e(Hc)為Hc的重投影誤差,Hc∈SE(3)為相機姿態的相對變換矩陣,hc∈se(3)為相機姿態相對變換向量,由Hc變換得到;Ik-1為物體特征點投影到Fk-1中3D點,其中mk-1為該點在幀Fk-1中的2D像素坐標,dk-1為該點在幀Fk-1中的深度;m′k為前一幀Fk-1中2D像素坐標mk-1投影到當前幀的2D像素坐標,Δ和Δ-1分別對應投影函數和反向投影函數,exp(·)為從李代數向量變換到李群矩陣三維變換;
將定義為從se(3)映射到的符號運算,最小二乘解如下所示,
其中,ρh為懲罰因子,∑p為重投影誤差的協方差矩陣,n為殘差運算所需3D點投影至2D點數量,e(hc)為hc的重投影誤差,通過求解hc變換可以得到相機位姿的相對變換矩陣Hc,通過優化求解得到相機位姿;
所述步驟S3中,依據相機運動估計物體位姿變換矩陣Hc∈SE(3),將潛在動態對象建模為一個帶有位姿變換矩陣Ho的實體,將空間中動態點從參考幀Fk-1關聯到后一幀Fk,其計算方式如下:
其中,Hc∈SE(3)為相機運動估計物體位姿變換矩陣,Ho∈SE(3)為物體姿態的相對變換矩陣,I′k-1為空間中動態點投影到Fk-1幀中3D點,為深度圖像幀Fk-1中2D像素坐標,為幀Fk-1中坐標點深度,為該點在幀Fk中的2D點坐標,Δ和Δ-1分別對應投影函數和反向投影函數,該函數是由相機內參與相機外參構成;
通過重投影誤差與最小二乘法計算得到物體位姿變換矩陣Ho,其計算公式如下所示:
其中,e(Ho)為重投影誤差,ho∈se(3)為物體姿態相對變換向量,由Ho變換得到,nb為相應殘差運算所需3D點投影至2D點數量,為前一幀Fk-1中2D像素坐標投影到當前幀的2D像素坐標,exp(·)為從李代數向量變換到李群矩陣三維變換;該方法通過將誤差值最小化得出物體變換矩陣;
所述步驟S4中,采用二維圖像測量判斷物體狀態,假設特征點為靜態投影點,則該投影點與其真實投影點的像素距離d為動態視覺誤差,計算圖像潛在動態物體上像素點動態視覺誤差d的中位數表示為物體動態視覺誤差;的計算方式如下所示:
在非線性姿態優化階段,設定不確定性誤差滿足K維高斯分布,則它的微分熵計算方式如下所示:
其中,G(x0)為微分熵,x0為輸入量,w為由上一幀傳播得到的移動概率,為殘差方程的導數,為協方差矩陣,為光度重投影誤差,u表示K高斯分布維度;基于此將物體動態偏差與一個由微分熵引導并隨熵緩慢變大的動態閾值Δd=H(G(x))進行對比,H(G(x))即為此構建的函數,若判斷該物體為動態物體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽工程大學,未經安徽工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210415251.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種錯誤碼生成方法及相關設備
- 下一篇:一種電極間距變化的消融導管及設備





