[發明專利]一種基于多視角雙注意網絡的三維物體識別方法有效
| 申請號: | 202110120015.1 | 申請日: | 2021-01-28 |
| 公開(公告)號: | CN112784782B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 蔡宇;王文舉;王濤 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G06V20/64 | 分類號: | G06V20/64;G06V10/46;G06V10/77;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 郁旦蓉 |
| 地址: | 200093 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視角 注意 網絡 三維 物體 識別 方法 | ||
1.一種基于多視角雙注意網絡的三維物體識別方法,其特征在于,包括以下步驟:
步驟1,將原始三維物體從n個視角投影到二維平面渲染得到n個視圖,將n個所述視圖分別經過基礎CNN模型進行特征提取對應得到n個視覺特征;
步驟2,將n個所述視覺特征輸入視圖空間注意力模塊進行處理后得到視覺空間描述符;
步驟3,將n個所述視覺特征輸入視圖通道注意力模塊進行處理后得到視覺通道描述符;
步驟4,將所述視覺空間描述符和所述視覺通道描述符進行聯合得到三維形狀描述符,將該三維形狀描述符輸入到全連接網絡中完成物體識別,得到所述原始三維物體的預測識別分類結果,
其中,采用ResNet網絡作為所述基礎CNN模型,移除原始ResNet最后一層全連接層,并連接視圖空間注意力模塊與視圖通道注意力模塊,
其中,所述步驟2中包括以下子步驟:
步驟2-1,將輸入的所述視覺特征用第一總體特征進行表示,將所述第一總體特征饋入兩個卷積層,分別生成兩個新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs)?(1)
Key=T(Z(fs))?(2)
公式(1)和公式(2)中,Z是卷積核大小為1*1的卷積層,T為轉置操作,將其reshape為其中N=H1×W1為所述第一總體特征fs的空間大小,
在Query的轉置和Key之間進行矩陣乘法,并應用一層softmax層來計算得到空間注意力矩陣S∈RN×N,softmax函數用于保證所述視圖特征的權重總和為1,如公式(3),
公式(3)中,Sij為所述視圖空間注意力模塊得到的所述空間注意力矩陣,用于度量所述視圖內ith位置對jth位置的相關性,權重越大越相似;
步驟2-2,將所述第一總體特征fs饋入另一分支,此分支為原始特征空間分支,該分支的特征與輸入的所述視圖特征具有相同的分辨率來保存原始特征信息,將所述第一總體特征fs經過卷積處理生成一個新的特征映射Value∈RC1×H1×W1,并將Value進行reshape為∈RC×N,然后將其與所述空間注意力矩陣S進行矩陣乘法,再與所述第一總體特征fs進行元素求和運算來保證經過所述視圖空間注意力模塊之后的特征所學習的信息豐富度不低于原始輸入的所述視覺特征的信息豐富度,得到空間特征P,如公式(4),
公式(4)中,θ為尺度參數,該尺度參數θ自適應控制得到的空間注意力特征,初始化為0,并逐漸地學習分配到更大的權重;
步驟2-3,進行最大池化操作來聚集視圖特征,將所述空間特征P匯集到一個全局描述符中得到所述空間形狀描述符Vs,如公式(5),
VS=MAX(P)??????(5)
公式(5)中,MAX為最大池化操作;
其中,所述步驟3包括以下子步驟:
步驟3-1,將輸入的n個所述視角下的所述視覺特征用第二總體特征fc進行表示,令C2=n,將所述第二總體特征fc轉化為n×H2×W2大小,再將空間大小為H2×W2大小的所述第二總體特征fc通過全局空間信息收縮得到一個R∈Rn的所述通道向量,如公式(6),
該通道向量R的大小為n×1×1,即具有n個視圖通道,每個所述視圖通道的信息均用該視圖通道的全局平均池化值進行表示;
步驟3-2,對所述通道向量采用兩層全連接層和一層ReLu層的視圖選取機制并應用sigmoid函數激活,計算得到的通道注意力向量Sc,如公式(7),
Sc=σ(W2δ(W1R))??????????(7)
所述兩層全連接層分別為一個衰減比為r的降維層和一個升維層,其中r=n,即將所述視圖通道的數量歸一化,公式(7)中,W1和W2分別為所述降維層和所述升維層的參數,和δ為ReLu層的激活函數,σ為sigmoid函數,用于將輸出映射為(0,1)區間得到所述通道注意力向量Sc;
步驟3-3,將大小為n×1×1的所述視圖注意力權重向量Sc與n個所述視角的所述第二總體特征fc進行element-wise的點乘操作得到如公式(8),
公式(8)中,“·”為Hadamard?Product,
再將加上所述第二總體特征fc得到經視圖通道變換后的視圖特征保證經過所述視圖通道注意力模塊之后的特征所學習的視圖信息豐富度不低于原始輸入的所述視覺特征的信息豐富度,如公式(9),
步驟3-4,對所述視圖特征進行Conv操作將其組合匯集到一個全局描述符中得到通道形狀描述符Vc,如公式(10),
公式(10)中,Conv為一層卷積核大小為1×n的卷積層,使用1×n卷積核相當于n視角的視角窗口,經過所述視角窗口的滑動融合n個視角的所述視圖特征得到通道形狀描述符Vc。
2.根據權利要求1所述的基于多視角雙注意網絡的三維物體識別方法,其特征在于:
其中,所述步驟1包括以下子步驟:
步驟1-1,對于所述原始三維物體M,將其從n個視角投影到二維平面渲染成n個所述視圖,X→(x1,x2,…,xi,…,xn),其中,xi為第i個視圖;
步驟1-2,n個所述視圖經過所述基礎CNN模型后得到n個不同視角下的所述視覺特征(f1,f2,…,fi,…,fn),其中,fi為第i個所述視圖的所述視覺特征,fi∈RC×H×W。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110120015.1/1.html,轉載請聲明來源鉆瓜專利網。





