[發(fā)明專利]一種基于Transformer的點云幾何編解碼方法在審
| 申請?zhí)枺?/td> | 202210104899.6 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114422806A | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設計)人: | 韓成;張超;楊華民;盧時禹;李巖芳;李華;權(quán)巍;胡汗平;徐超 | 申請(專利權(quán))人: | 長春理工大學 |
| 主分類號: | H04N19/597 | 分類號: | H04N19/597;H04N19/147;H04N19/91;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 安徽順超知識產(chǎn)權(quán)代理事務所(特殊普通合伙) 34120 | 代理人: | 賀湘君 |
| 地址: | 130000 *** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 transformer 幾何 解碼 方法 | ||
1.一種基于Transformer的點云幾何編解碼方法,其特征在于,包括從ModelNet數(shù)據(jù)集平臺中獲得一組測試點云傳入計算機1中,其具體步驟如下:
步驟1:將3379個訓練點云放在名為‘train’的文件夾內(nèi),將用來測試的621個測試點云放在名為‘test’的文件夾內(nèi);
步驟2:3D卷積操作對輸入張量的大小要求為[Bs,Ic,T,H,W];
步驟3:循環(huán)遍歷‘train’文件夾內(nèi)的數(shù)據(jù)或‘test’文件夾內(nèi)的數(shù)據(jù),保存每個文件的索引地址方便后面查找使用;
步驟4:進入神經(jīng)網(wǎng)絡后,經(jīng)過第一次卷積操作,第一次3D卷積操作參數(shù)設置如下:Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充,3D卷積操作所使用的卷積核為三維矩陣,矩陣中所有元素的值為隨機生成,其范圍為[-1,1]區(qū)間;在所使用的輸入張量為[1,1,64,64,64],Bs輸入批量大小為1,Ks大小為(3,3,3),St的步長為1;Pa的輸入為1,偏置量設置為True,輸出通道設置為16;經(jīng)過第一次3D卷積操作之后得到的張量大小為[1,16,64,64,64];
步驟5:然后利用RELU激活函數(shù)對第一次3D卷積操作得到的張量進行第一次非線性擬合;
步驟6:將一次非線性擬合得到的張量輸入到第二次3D卷積操作,輸入的張量大小為[1,16,64,64,64],Bs輸入批量大小為1,Ks的大小為(3,3,3),St的步長為2,Pa的輸入為0,偏置量設置為True,輸出通道設置為32;經(jīng)過第二次3D卷積操作之后得到的張量大小為[1,32,32,32,32];
步驟7:然后利用RELU激活函數(shù)對第二次3D卷積操作得到的張量進行第二次非線性擬合;
步驟8:將第二次非線性擬合得到的張量輸入到第一個Transformer模塊中,Transformer里的參數(shù)如下,con_pat表示為第三次卷積操作中卷積核的尺寸,con_hid為通道數(shù),con_tr_ml_dim為多層感知機的單元個數(shù),con_tr_ml_num_h為多頭注意力的分支個數(shù),con_tr_ml_num_l為多頭注意力模塊的個數(shù),con_tr_at_drop_rate為在多頭注意力模塊中隨機的的關(guān)閉點與點之間的路徑,con_tr_drop_rate為在Transformer中隨機的的關(guān)閉點與點之間的路徑;在中參數(shù)設置如下:con_pat為(4,4,4),con_hid為768,con_tr_ml_dim為3072,con_tr_ml_num_h為12,con_tr_ml_num_l為2,con_tr_at_drop_rate為0.0,con_tr_drop_rate為0.1;
步驟9:在第一個Tranformer中將第二次非線性擬合得到的張量輸入到第三次3D卷積操作中;
步驟10:將第三次卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,512];
步驟11:然后將第三次卷積操作得到張量的第二維和第三維進行位置互換,輸入到第一個Transformer模塊的編碼器中進行特征提取,得到張量大小為[1,512,768];
步驟12:將第一次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟13:3D反卷積對張量的大小要求為[Bs,Ic,T,H,W];3D反卷積操作中各個參數(shù)的含義如下:Ic表示為輸入張量的通道數(shù),T表示為輸入三維空間網(wǎng)格點云的長;H表示為輸入三維空間網(wǎng)格點云的高;W表示為輸入三維空間網(wǎng)格點云的寬;
步驟14:將第一次Transformer操作后得到的張量輸入到第一次3D反卷積操作中;
步驟15:將第一次3D反卷積操作之后得到的張量輸入到第二次3D反卷積操作中,還原成輸入到第一次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,32,16,16,16],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為32;經(jīng)過3D卷積之后得到的張量大小為[1,32,32,32,32];
步驟16:將第二次3D反卷積操作得到的張量輸入到第四次3D卷積操作中,在實際使用的輸入張量為[1,32,32,32,32],Ks的大小為(3,3,3),St的步長為1,Pa的輸入為1,偏置量設置為True,輸出通道設置為64;經(jīng)過3D卷積之后得到的張量大小為[1,64,32,32,32];
步驟17:然后利用它RELU激活函數(shù)對第四次3D卷積操作得到的張量進行第三次非線性擬合;
步驟18:將第三次非線性擬合得到的張量輸入到第五次3D卷積操作中,在實際使用的輸入張量為[1,64,32,32,32],Ks的大小為(2,2,2),St的步長為2,偏置量設置為True,輸出通道設置為64;經(jīng)過第五次3D卷積操作之后得到的張量大小為[1,64,16,16,16];
步驟19:然后利用它RELU激活函數(shù)對第五次3D卷積操作得到的張量進行第四次非線性擬合;
步驟20:將第四次非線性擬合得到的張量輸入到第二個Transformer模塊中;
步驟21:在第二個Tranformer中將第四次非線性擬合得到的張量輸入到第六次3D卷積操作中;第六次3D卷積操作的參數(shù)設置如下:輸入的張量大小為[1,64,16,16,16],Bs輸入批量大小為1,Ks的大小為(4,4,4),St的步長為4,Pa的輸入為0,偏置量設置為True,輸出通道設置為768;經(jīng)過第六次3D卷積操作之后得到的張量大小為[1,768,4,4,4];
步驟22:將第六次卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,64];
步驟23:然后將第六次卷積操作得到張量的第二維和第三維進行位置互換,輸入到Transdormer模塊的編碼器中進行特征提取,得到張量大小為[1,64,768];
步驟24:將第二次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟25:將第二次Transformer操作后得到的張量輸入到第三次3D反卷積操作中,第三次3D反卷積操作需要設置的參數(shù)如下Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充;3D卷積所使用的卷積核為三維矩陣,矩陣中所有元素的值為隨機生成,其范圍為[-1,1];在實際使用的輸入張量為[1,768,4,4,4],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為64;經(jīng)過第三次3D反卷積操作之后得到的張量大小為[1,64,8,8,8];
步驟26:將第三次3D反卷積操作之后得到的張量輸入到第四次3D反卷積操作中,還原成輸入到第二次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,64,8,8,8],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為64;經(jīng)過3D卷積之后得到的張量大小為[1,64,16,16,16];
步驟27:將第四次3D反卷積操作得到的張量輸入到第七次3D卷積操作中,在實際使用的輸入張量為[1,64,16,16,16],Ks的大小為(3,3,3),St的步長為1;Pa的輸入為1,偏置量設置為True,輸出通道設置為32;經(jīng)過3D卷積之后得到的張量大小為[1,32,16,16,16];
步驟28:然后利用它RELU激活函數(shù)對第七次3D卷積操作得到的張量進行第五次非線性擬合;
步驟29:將第五次非線性擬合得到的張量輸入到第八次3D卷積操作中,在實際使用的輸入張量為[1,32,16,16,16],Ks的大小為(2,2,2),St的步長為2;Pa的輸入為1,偏置量設置為True,輸出通道設置為32;經(jīng)過第八次3D卷積操作之后得到的張量大小為[1,32,8,8,8];
步驟30:然后利用它RELU激活函數(shù)對第八次3D卷積操作得到的張量進行第六次非線性擬合;
步驟31:將第六次非線性擬合得到的張量輸入到第三個Transformer模塊中,第三個Transformer里的參數(shù)如下,con_pat表示為第八次卷積操作中卷積核的尺寸,con_hid為通道數(shù),con_tr_ml_dim為多層感知機的單元個數(shù),con_tr_ml_num_h為多頭注意力的分支個數(shù),con_tr_ml_num_l為多頭注意力模塊的個數(shù),con_tr_at_drop_rate為在多頭注意力模塊中隨機的的關(guān)閉點與點之間的路徑,con_tr_drop_rate為在Transformer中隨機的的關(guān)閉點與點之間的路徑;在中參數(shù)設置如下:con_pat為(4,4,4),con_hid為768,con_tr_ml_dim為3072,con_tr_ml_num_h為12,con_tr_ml_num_l為2,con_tr_at_drop_rate為0.0,con_tr_drop_rate為0.1;
步驟32:在第三個Tranformer中將第六次非線性擬合得到的張量輸入到第九次3D卷積操作中;第九次3D卷積操作的參數(shù)設置如下:輸入的張量大小為[1,32,8,8,8],Bs輸入批量大小為1,Ks的大小為(4,4,4),St的步長為4,Pa的輸入為0,偏置量設置為True,輸出通道設置為768;經(jīng)過第六次3D卷積操作之后得到的張量大小為[1,768,2,2,2];
步驟33:將第九次卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,8];
步驟34:然后將第九次卷積操作得到張量的第二維和第三維進行位置互換,輸入到第三個Transdormer模塊的編碼器中進行特征提取,得到張量大小為[1,8,768];
步驟35:將第三次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟36:將第三次Transformer操作后得到的張量輸入到第五次3D反卷積操作中,第五次3D反卷積操作需要設置的參數(shù)如下Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充;3D卷積所使用的卷積核為三維矩陣,矩陣中所有元素的值為隨機生成,其范圍為[-1,1];在實際使用的輸入張量為[1,768,2,2,2],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為64;經(jīng)過第三次3D反卷積操作之后得到的張量大小為[1,32,4,4,4];
步驟37:將第五次3D反卷積操作之后得到的張量輸入到第六次3D反卷積操作中,還原成輸入到第三次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,32,4,4,4],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True;經(jīng)過第六次3D反卷積之后得到的張量大小為[1,32,8,8,8];
步驟38:將第六次3D反卷積操作得到的張量輸入到第十次3D卷積操作中,在實際使用的輸入張量為[1,32,8,8,8],Ks的大小為(3,3,3),St的步長為1;Pa的輸入為1,偏置量設置為True,輸出通道設置為32;經(jīng)過3D卷積之后得到的張量大小為[1,8,8,8,8];
步驟39:將第十次3D卷積操作得到的三維網(wǎng)格空間點云,輸入到熵模型編解碼模塊中,將三維網(wǎng)格空間點云里的數(shù)據(jù)隨機加上0.5或-0.5進行量化,再將三維網(wǎng)格空間點云張量量化成-1或0或1;再使用sigmoid函數(shù)對得到最后的張量進行第七次非線性擬合,得到數(shù)據(jù)來選擇與用于對三維網(wǎng)格空間點云占用模式進行熵編碼的編碼器相關(guān)聯(lián)的概率;將點云的最終張量表示進行熵編碼形成最終比特流;
步驟40:將熵編碼得到的比特流傳輸?shù)届鼐幋a解碼端,還原成第十次3D卷積操作得到的三維網(wǎng)格空間點云;
步驟41:將熵編碼解碼器得到張量輸入到第七次3D反卷積操作中,在所使用的輸入張量為[1,8,8,8,8],Bs輸入批量大小為1,Ks的大小為(2,2,2),St的步長為1;偏置量設置為True,輸出通道設置為64;經(jīng)過第七次3D反卷積操作之后得到的張量大小為[1,64,16,16,16];
步驟42:然后利用RELU激活函數(shù)對第七次3D反卷積操作得到的張量進行第八次非線性擬合;
步驟43:對第七次3D反卷積操作得到的張量輸入到第十一次3D卷積操作中,輸入的張量大小為[1,64,16,16,16],Bs輸入批量大小為1,Ks的大小為(3,3,3),St的步長為1,Pa的輸入為1,偏置量設置為True,輸出通道設置為64;經(jīng)過3D卷積之后得到的張量大小為[1,64,16,16,16];
步驟44:然后利用RELU激活函數(shù)對第十一次3D卷積操作得到的張量進行第九次非線性擬合;
步驟45:將第九次非線性擬合得到的張量輸入到第四個Transformer模塊中,第四個Transformer里的參數(shù)如下,con_pat表示為第三次卷積操作中卷積核的尺寸,con_hid為通道數(shù),con_tr_ml_dim為多層感知機的單元個數(shù),con_tr_ml_num_h為多頭注意力的分支個數(shù),con_tr_ml_num_l為多頭注意力模塊的個數(shù),con_tr_at_drop_rate為在多頭注意力模塊中隨機的的關(guān)閉點與點之間的路徑,con_tr_drop_rate為在Transformer中隨機的的關(guān)閉點與點之間的路徑;在中參數(shù)設置如下:con_pat為(4,4,4),con_hid為768,con_tr_ml_dim為3072,con_tr_ml_num_h為12,con_tr_ml_num_l為2,con_tr_at_drop_rate為0.0,con_tr_drop_rate為0.1;
步驟46:在第四個Tranformer中將第九次非線性擬合得到的張量輸入到第十二次3D卷積操作中;第十二次3D卷積操作的參數(shù)設置如下:輸入的張量大小為[1,64,16,16,16],Bs輸入批量大小為1,Ks的大小為(4,4,4),St的步長為4,Pa的輸入為0,偏置量設置為True,輸出通道設置為768;經(jīng)過第六次3D卷積操作之后得到的張量大小為[1,768,4,4,4];
步驟47:將第十二次3D卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,64];
步驟48:然后將第十二次3D卷積操作得到張量的第二維和第三維進行位置互換,輸入到第四個Transformer模塊的編碼器中進行特征提取,得到張量大小為[1,64,768];
步驟49:將第四次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟50:將第四次Transformer操作后得到的張量輸入到第八次3D反卷積操作中;第八次3D反卷積操作需要設置的參數(shù)如下Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充;3D卷積所使用的卷積核為三維矩陣,矩陣中所有元素的值為隨機生成,其范圍為[-1,1];在實際使用的輸入張量為[1,768,4,4,4],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為64;經(jīng)過第三次3D反卷積操作之后得到的張量大小為[1,64,8,8,8];
步驟51:將第八次3D反卷積操作之后得到的張量輸入到第九次3D反卷積操作中,還原成輸入到第三次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,64,8,8,8],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為64;經(jīng)過第六次3D反卷積之后得到的張量大小為[1,64,16,16,16];
步驟52:將第九次3D反卷積操作得到的張量輸入到第十次3D反卷積操作中,在實際使用的輸入張量為[1,64,16,16,16],Ks的大小為(2,2,2),St的步長為2,偏置量設置為True,輸出通道數(shù)設置為32;經(jīng)過3D卷積之后得到的張量大小為[1,32,32,32,32];
步驟53:然后利用RELU激活函數(shù)對第十次3D反卷積操作得到的張量進行第十次非線性擬合;
步驟54:將第十次非線性擬合得到的張量輸入到第十三次3D卷積操作中,在實際使用的輸入張量為[1,32,32,32,32],Ks的大小為(3,3,3),St的步長為1;Pa的輸入為1,偏置量設置為True,輸出通道數(shù)設置為32;經(jīng)過第八次3D卷積操作之后得到的張量大小為[1,32,32,32,32];
步驟55:然后利用RELU激活函數(shù)對第十三次3D卷積操作得到的張量進行第十一次非線性擬合;
步驟56:將第十一次非線性擬合得到的張量輸入到第五個Transformer模塊中,第五個Transformer里的參數(shù)如下,con_pat表示為第八次卷積操作中卷積核的尺寸,con_hid為通道數(shù),con_tr_ml_dim為多層感知機的單元個數(shù),con_tr_ml_num_h為多頭注意力的分支個數(shù),con_tr_ml_num_l為多頭注意力模塊的個數(shù),con_tr_at_drop_rate為在多頭注意力模塊中隨機的的關(guān)閉點與點之間的路徑,con_tr_drop_rate為在Transformer中隨機的的關(guān)閉點與點之間的路徑;
步驟57:在第五個Tranformer中將第十一次非線性擬合得到的張量輸入到第十四次3D卷積操作中;第十四次3D卷積操作的參數(shù)設置如下:輸入的張量大小為[1,32,32,32,32],Bs輸入批量大小為1,Ks的大小為(4,4,4),St的步長為4,Pa的輸入為0,偏置量設置為True,輸出通道設置為768;經(jīng)過第六次3D卷積操作之后得到的張量大小為[1,768,8,8,8];
步驟58:將第十四次卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,256];
步驟59:然后將第十四次卷積操作得到張量的第二維和第三維進行位置互換,輸入到Transdormer模塊的編碼器中進行特征提取,得到張量大小為[1,256,768];
步驟60:將第五次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟61:將第五次Transformer操作后得到的張量輸入到第十一次3D反卷積操作中,第十一次3D反卷積操作需要設置的參數(shù)如下Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充;
步驟62:將第十一次3D反卷積操作之后得到的張量輸入到第十二次3D反卷積操作中,還原成輸入到第五次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,32,16,16,16],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True,輸出通道設置為32;經(jīng)過第十一次3D反卷積之后得到的張量大小為[1,32,32,32,32];
步驟63:將第十二次3D反卷積操作得到的張量輸入到第十三次3D反卷積操作中,在實際使用的輸入張量為[1,32,32,32,32],Ks的大小為(2,2,2),St的步長為2,偏置量設置為True,輸出通道設置為16;經(jīng)過第十六次3D卷積操作之后得到的張量大小為[1,16,64,64,64];
步驟64:然后利用RELU激活函數(shù)對第十三次3D反卷積操作得到的張量進行第十二次非線性擬合;
步驟65:將第十二次非線性擬合得到的張量輸入到第十五次3D卷積操作中,在實際使用的輸入張量為[1,16,64,64,64],Ks的大小為(3,3,3),St的步長為3;Pa的輸入為1,偏置量設置為True,輸出通道設置為16;經(jīng)過第十五次3D卷積操作之后得到的張量大小為[1,16,64,64,64];
步驟66:然后利用RELU激活函數(shù)對第十五次3D卷積操作得到的張量進行第十三次非線性擬合;
步驟67:將第十三次非線性擬合得到的張量輸入到第六個Transformer模塊中;
步驟68:在第六個Tranformer模塊中將第十三次非線性擬合得到的張量輸入到第十六次3D卷積操作中;第十六次3D卷積操作的參數(shù)設置如下:輸入的張量大小為[1,16,64,64,64],Bs輸入批量大小為1,Ks的大小為(4,4,4),St的步長為4,Pa的輸入為0,偏置量設置為True,輸出通道設置為768;經(jīng)過第六次3D卷積操作之后得到的張量大小為[1,768,16,16,16];
步驟69:將第十六次卷積操作得到的張量的[Bs,Ic,T,H,W]按照行優(yōu)先展開,轉(zhuǎn)換成[Bs,Ic,T*H*W]的形式;在中展開后得到的張量大小為[1,768,4096];
步驟70:然后將第十六次卷積操作得到張量的第二維和第三維進行位置互換,輸入到Transdormer模塊的編碼器中進行特征提取,得到張量大小為[1,768,4096];
步驟71:將第六次Transformer操作后得到的張量[Bs,T*H*W,Ic]轉(zhuǎn)換成[Bs,Ic,T,H,W]的形式;
步驟72:將第六次Transformer操作后得到的張量輸入到第十四次3D反卷積操作中,第十四次3D反卷積操作需要設置的參數(shù)如下Ks表示為卷積核的尺寸,St表示為卷積操作滑動步長,Ba表示為偏置量,Pa表示為對原始三維網(wǎng)格空間的填充;
步驟73:將第十四次3D反卷積操作之后得到的張量輸入到第十五次3D反卷積操作中,還原成輸入到第六次Tranformer操作之前的張量大小;在實際使用的輸入張量為[1,16,32,32,32],Ks的大小為(2,2,2),St的步長為2;偏置量設置為True;經(jīng)過第十二次3D反卷積之后得到的張量大小為[1,16,64,64,64];
步驟74:將第十五次3D反卷積操作得到的張量輸入到第十七次3D卷積操作中,在實際使用的輸入張量為[1,16,64,64,64],Ks的大小為(3,3,3),St的步長為1;Pa的輸入為1,偏置量設置為True,輸出通道設置為1;經(jīng)過3D卷積之后得到的張量大小為[1,1,64,64,64];
步驟75:該網(wǎng)絡的損失函數(shù)定義為:
Loss=DCD+λR
其中DCD為輸入點云與重建點云的距離,R表示根據(jù)量化后點云估計出的比特率,λ表示拉格朗日乘子;
其中
公式中S1,S2分別表示兩組3D點云,第一項代表S1中任意一點x到S2的最小距離之和,第二項則表示S2中任意一點y到S1的最小距離之和;如果該距離較大,則說明兩組點云區(qū)別較大;如果距離較小,則說明重建效果較好;
參數(shù)λ用于控制失真損失D和碼率損失R的比重,該參數(shù)值可以設置為0.2,0.6,1和2等任意值,以獲得不同碼率的模型;
R=1/N∑Ri=1/N∑-[yi-log(pi)+(1-yi)glog(1-pi)]
公式中,N為體素的總數(shù),yi為原始體素值,pi為預測體素值;在推斷過程中,通過設置概率的閾值來進行分類,該閾值不固定,而是根據(jù)點數(shù)量自適應地設置,即通過排序,選擇概率更大的體素;
步驟76:使用預處理后的公開點云數(shù)據(jù)集進行訓練,本實施例中用ModelNet數(shù)據(jù)集進行訓練,ModelNet數(shù)據(jù)集包含3379個訓練點云和621個測試點云;本實施例中打亂訓練數(shù)據(jù)的順序訓50輪,當損失函數(shù)值收斂且在訓練數(shù)據(jù)上表現(xiàn)穩(wěn)定是認為訓練成功,保存關(guān)鍵點提取模型和對應的網(wǎng)絡參數(shù);
步驟77:將步驟74得到的三維網(wǎng)格空間點云內(nèi)的數(shù)據(jù)量化到[0,1],根據(jù)點云在三維網(wǎng)格空間的占據(jù)位置(0,1)轉(zhuǎn)換成點云坐標位置(x,y,z),還原成壓縮點云模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長春理工大學,未經(jīng)長春理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210104899.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





