[發(fā)明專(zhuān)利]一種基于預(yù)定義和隨機(jī)視點(diǎn)的多視圖三維形狀識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010101436.5 | 申請(qǐng)日: | 2020-02-19 |
| 公開(kāi)(公告)號(hào): | CN111310670A | 公開(kāi)(公告)日: | 2020-06-19 |
| 發(fā)明(設(shè)計(jì))人: | 郁錢(qián);王躍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 江蘇理工學(xué)院 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京正聯(lián)知識(shí)產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 杭行 |
| 地址: | 213011 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 預(yù)定 隨機(jī) 視點(diǎn) 視圖 三維 形狀 識(shí)別 方法 | ||
一種基于預(yù)定義和隨機(jī)視點(diǎn)的多視圖三維形狀識(shí)別方法,開(kāi)發(fā)了一種新穎的多視圖卷積神經(jīng)網(wǎng)絡(luò)Latent?MVCNN(LMVCNN),使用來(lái)自預(yù)定義或隨機(jī)視點(diǎn)的多個(gè)視圖圖像識(shí)別3D形狀。LMVCNN由三種類(lèi)型的子卷積神經(jīng)網(wǎng)絡(luò)組成。對(duì)于每個(gè)視圖圖像,第一CNN輸出多個(gè)類(lèi)別似然性,第二CNN輸出潛在矢量以幫助第一CNN選擇正確的類(lèi)別似然性。第三CNN輸出從一個(gè)視圖的類(lèi)別可能性到另一視圖的類(lèi)別可能性的轉(zhuǎn)變概率,這進(jìn)一步幫助LMVCNN為每對(duì)視圖圖像找到正確的類(lèi)別可能性。三個(gè)CNN相互協(xié)作以獲得令人滿(mǎn)意的分類(lèi)分?jǐn)?shù)。我們的實(shí)驗(yàn)結(jié)果表明,對(duì)于預(yù)定義和隨機(jī)視點(diǎn),LMVCNN在ModelNet10和ModelNet40上的3D形狀識(shí)別方面均具有競(jìng)爭(zhēng)優(yōu)勢(shì),并且當(dāng)視圖圖像的數(shù)量很少時(shí),其表現(xiàn)出令人鼓舞的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺(jué)領(lǐng)域,具體是一種基于預(yù)定義和隨機(jī)視點(diǎn)的多視圖三維形狀識(shí)別方法。
背景技術(shù)
由于深度學(xué)習(xí)在許多計(jì)算機(jī)視覺(jué)任務(wù)中的出色表現(xiàn),因此深度神經(jīng)網(wǎng)絡(luò)已應(yīng)用于3D形狀分析。現(xiàn)已經(jīng)提出了用于3D形狀識(shí)別的各種深度網(wǎng)絡(luò),其基于3D形狀的不同格式,例如視圖,體素,網(wǎng)格和點(diǎn)云。但是,在這些方法中,只有基于視圖的方法才具有出色的性能。Su等人首先提出了用于識(shí)別3D形狀的多視圖卷積神經(jīng)網(wǎng)絡(luò)MVCNN,并開(kāi)發(fā)了視圖合并層以將來(lái)自所有視圖的信息合成為單個(gè)緊湊的3D形狀描述符。視圖池層將max操作應(yīng)用于所有視圖的卷積特征,并丟棄較小的特征值。盡管此視圖池層提供了一種方便的聚合視圖的方法,但它顯然限制了MVCNN的性能改進(jìn),因?yàn)樗鼪](méi)有充分利用所有視圖信息。
Kanezaki等人提出的RotationNet擴(kuò)展。RotationNet的最后一層為每個(gè)視圖圖像輸出許多類(lèi)別似然,并且每個(gè)類(lèi)別似然由softmax層實(shí)現(xiàn)。RotationNet使用潛在變量作為3D對(duì)象姿態(tài)估計(jì)。但是,潛變量只有一個(gè)維度,其范圍很小。在RotationNet中,可以將潛在變量分配給從1到視圖數(shù)的整數(shù)之一。此外,RotationNet對(duì)預(yù)定義視圖假設(shè)非常敏感。通常,這些方法尚未應(yīng)用于隨機(jī)視點(diǎn)的3D形狀識(shí)別。此外,當(dāng)觀看圖像的數(shù)量很少時(shí),3D形狀識(shí)別將面臨巨大挑戰(zhàn)。
基于體素的方法通常將3D形狀轉(zhuǎn)換為包含許多體素的體積。因此,可以將CNN擴(kuò)展為3D架構(gòu)以輕松處理體素化形狀。但是,當(dāng)3D體積形狀的分辨率提高時(shí),體素的總數(shù)將極大地增加,從而無(wú)法處理體積形狀。由于基于體素的方法的局限性,它們的性能通常不如基于視圖的方法。
Qi等人設(shè)計(jì)了一種新型的神經(jīng)網(wǎng)絡(luò)PointNet,它可以直接處理點(diǎn)云,并尊重輸入點(diǎn)的排列不變性。該神經(jīng)網(wǎng)絡(luò)為3D對(duì)象識(shí)別提供了有效的方法。接下來(lái),Qi等人開(kāi)發(fā)了另一個(gè)層次神經(jīng)網(wǎng)絡(luò)PointNet++,該網(wǎng)絡(luò)遞歸地在輸入點(diǎn)的嵌套子集上使用PointNet。最近,Su等人提出了一個(gè)直接處理點(diǎn)云的處理點(diǎn)云的網(wǎng)絡(luò),它被表示為高維格子中的稀疏樣本集。點(diǎn)云處理一直是自動(dòng)駕駛中的重要模塊。但是,點(diǎn)云格式易受噪聲干擾,并且缺乏描述局部細(xì)節(jié)的能力。
與上述其他方法相比,基于視圖的3D形狀表示方法具有更好的適應(yīng)性,并且可以更輕松地獲取2D視圖圖像。
發(fā)明內(nèi)容
為了增強(qiáng)CNN的3D形狀識(shí)別功能,可用于預(yù)定義和隨機(jī)視點(diǎn),并處理少量可用視圖圖像的情況,開(kāi)發(fā)了一種新穎的多視圖卷積神經(jīng)網(wǎng)絡(luò)“Latent-MVCNN”(LMVCNN),它可以識(shí)別3D形狀,并由三種類(lèi)型的子CNN組成。第一個(gè)CNN為每個(gè)視圖圖像輸出多個(gè)類(lèi)別似然,第二個(gè)CNN輸出一個(gè)隱變量以幫助第一個(gè)CNN選擇正確的類(lèi)別似然。潛在向量的作用類(lèi)似于GVCNN中的視圖分組模塊,但此處用于選擇正確的類(lèi)別可能性。第三CNN輸出從一個(gè)視圖的類(lèi)別可能性到另一視圖的類(lèi)別可能性的轉(zhuǎn)變概率,這進(jìn)一步幫助LMVCNN為每對(duì)視圖圖像找到正確的類(lèi)別可能性。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于預(yù)定義和隨機(jī)視點(diǎn)的多視圖三維形狀識(shí)別方法,按以下步驟實(shí)現(xiàn):
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于江蘇理工學(xué)院,未經(jīng)江蘇理工學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010101436.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種造紙打漿過(guò)程設(shè)備的動(dòng)態(tài)調(diào)度系統(tǒng)及方法
- 下一篇:一種基于圖像識(shí)別的冷床沖頂識(shí)別方法、系統(tǒng)及設(shè)備
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶(hù)設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測(cè)裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備
- 視頻圖像轉(zhuǎn)換裝置和攝像裝置
- 多視點(diǎn)視頻的編碼、解碼方法、裝置和編解碼器
- 基于時(shí)域增強(qiáng)的視點(diǎn)合成預(yù)測(cè)多視點(diǎn)視頻編碼方法
- 一種多視點(diǎn)3D視頻合成方法
- 用于多視點(diǎn)視頻預(yù)測(cè)編碼的方法和裝置以及用于多視點(diǎn)視頻預(yù)測(cè)解碼的方法和裝置
- 一種多視點(diǎn)圖像產(chǎn)生方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 360度視頻傳輸?shù)挠脩?hù)觀看視點(diǎn)序列預(yù)測(cè)方法
- 一種虛擬視點(diǎn)的視頻生成方法、裝置及設(shè)備
- 圖像處理裝置、車(chē)載照相機(jī)系統(tǒng)和圖像處理方法
- 一種多視點(diǎn)視頻的視點(diǎn)切換方法、服務(wù)器和系統(tǒng)





