[發(fā)明專利]基于規(guī)范等變轉換算子神經(jīng)網(wǎng)絡的三維物體形狀分類方法有效
| 申請?zhí)枺?/td> | 202110895887.5 | 申請日: | 2021-08-05 |
| 公開(公告)號: | CN113723208B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 林宙辰;董一鳴;何翎申;王奕森 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06V20/64 | 分類號: | G06V20/64;G06V10/82;G06N3/0464;G06T17/20;G06N3/045;B07C5/34 |
| 代理公司: | 北京萬象新悅知識產(chǎn)權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 規(guī)范 轉換 算子 神經(jīng)網(wǎng)絡 三維 物體 形狀 分類 方法 | ||
1.一種基于規(guī)范等變轉換算子的神經(jīng)網(wǎng)絡的三維物體形狀識別方法,創(chuàng)建用于實現(xiàn)模型規(guī)范等變性的等變轉換算子,再將全局坐標系投影到局部坐標系,并基于規(guī)范等變性實現(xiàn)模型的旋轉不變性,用于高效地進行三維物體分類與識別視覺分析;包括以下步驟:
1)對以流形結構表示的3D物體數(shù)據(jù)進行網(wǎng)格(mesh)化,生成3D物體mesh數(shù)據(jù);
2)對3D物體mesh數(shù)據(jù)進行預處理;包括:歸一化;確定鄰域;選定局部坐標系;計算對數(shù)映射以及聯(lián)絡;構造模型輸入特征,對mesh中每一個點,將其在全局坐標系下的坐標投影到局部坐標系下,作為模型輸入特征;
3)將3D物體mesh數(shù)據(jù)集分為訓練樣本和測試樣本;
4)構建規(guī)范等變的Transformer;
所述Transformer包括:鍵值函數(shù)、查詢函數(shù)和價值函數(shù);其中,注意力分數(shù)包括鍵值key和查詢query;通過設計不變的注意力分數(shù)和等變的價值函數(shù)實現(xiàn)規(guī)范等變的Transformer;包括如下步驟:
41)構建規(guī)范等變的Transformer架構;
設Transformer輸入特征域f的維度為Cin,群表示為ρin,輸出特征域的維度為Cout,群表示為ρout;定義規(guī)范等變的Transformer在規(guī)范w下,點p的輸出為:
其中,MHSA是多頭注意力函數(shù),SA是單頭注意力函數(shù),WM是線性變換矩陣,||是向量拼接操作運算符;在頭h處,SA函數(shù)的輸出為:
其中,點qu=exppwp(u),fw′(qu)為點qu處的特征向量平行移動到點p在規(guī)范w下的值,Vu為價值函數(shù),其將相對位置u用一個矩陣進行編碼,表達式如下:
其中,α是注意力分數(shù),其在中心點為p,鄰域點為qu時頭h處的表達式如下:
42)擴展正規(guī)表示;
CN群是由空間中所有對應的弧度值為的旋轉矩陣所構成的具有N個元素的群,其中k為0到N-1之間的整數(shù);正規(guī)表示是CN的一種特殊群表示;如果用Θk來表示旋轉角度為的旋轉矩陣,則CN可表示為{Θ0,Θ1,…,ΘN-1};對整數(shù)k,正規(guī)表示是一個N×N的置換矩陣,其中向量的所有分量循環(huán)平移k個單位;
可用不可約表示分解為其中是CN的不可約表示,A是N×N的可逆矩陣;當N為奇數(shù)時,不可約表示的形式如下:
其中,θ∈[0,2π)是矩陣Θ對應的旋轉角度,即:
且
進一步地,將不可約表示擴展到二維旋轉群SO(2)上,表示為:
其中即得到擴展后的群表示為:
由此實現(xiàn)對空間中的任意向量平行移動而不損失旋轉角度信息;
43)構建規(guī)范等變的價值函數(shù),將相對位置u用矩陣進行編碼;
將價值函數(shù)定義為平行移動的特征向量的數(shù)值左乘價值編碼矩陣WV;價值函數(shù)規(guī)范等變的充分必要條件是WV(Θ-1u)=ρout(Θ-1)WV(u)ρin(Θ);對WV進行泰勒展開求解此方程,即:
將該式代入到規(guī)范等變的充分必要條件式,即得線性方程組,表示為:
W0=ρout(Θ-1)W0ρin(Θ),
cos(θ)W1-sin(θ)W2=ρout(Θ-1)W1ρin(Θ),
sin(θ)K1-cos(θ)K2=ρout(Θ-1)W2ρin(Θ),
…
可通過截斷泰勒展開的項限制線性方程組中方程的個數(shù);求解線性方程組得到一組基其中m是解空間的維數(shù);每一個包括將等變的編碼矩陣W(i)表示為:
W(i)的線性組合∑ciW(i)仍滿足Value函數(shù)規(guī)范等變的充分必要條件;在訓練過程中,ci為可學習參數(shù);
44)構建規(guī)范不變的注意力分數(shù);
將鍵值函數(shù)和查詢函數(shù)表示為:其中WK和WQ為線性變換矩陣;
得分函數(shù)采用S(K(·),Q(·))=P(ReLU(K(·)+Q(·)));其中,ReLU為逐分量的激活函數(shù),P為平均池化函數(shù);
經(jīng)過激活和池化之后,計算得到的注意力分數(shù)是規(guī)范不變的;
45)通過將流形上的點在全局坐標系下的坐標投影到局部坐標系實現(xiàn)旋轉不變性;
設xp是點p在全局坐標系下的坐標值,np為點p處的法向量,p點處的規(guī)范wp由兩個坐標方向up和vp確定;投影后得到的在局部坐標系下的坐標值表示為:
Xp=(xp,up,xp,vp,xp,np),X對全局坐標系是旋轉不變的;
5)構造并訓練基于規(guī)范等變轉換算子的神經(jīng)網(wǎng)絡的三維物體形狀識別模型GET,模型的輸入是以三維空間下的二維流形結構表示的3D物體,輸出為該3D物體的預測類別;
采用步驟4)構建的Transformer作為卷積神經(jīng)網(wǎng)絡模型的卷積層;在最后一個卷積層的輸出之后加入群池化層,使得規(guī)范等變的輸出池化成規(guī)范不變的輸出,再分別通過全局平均池化層和全連接層得到每個類別的預測分數(shù);
將構建的Transformer層進行初始化,并對模型進行訓練,得到訓練好的GET模型;
6)利用步驟5)中構建并訓練好的GET模型,對待識別的3D物體mesh樣本數(shù)據(jù)進行識別,即得到預測的3D物體形狀識別標簽,實現(xiàn)基于規(guī)范等變轉換算子的神經(jīng)網(wǎng)絡的三維物體形狀識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經(jīng)北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110895887.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





