[發(fā)明專利]一種基于分塊卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類方法有效
| 申請?zhí)枺?/td> | 202010738474.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111860672B | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 馬占宇;謝吉洋;杜若一;司中威 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 北京挺立專利事務(wù)所(普通合伙) 11265 | 代理人: | 高福勇 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分塊 卷積 神經(jīng)網(wǎng)絡(luò) 細(xì)粒度 圖像 分類 方法 | ||
一種基于分塊卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類方法,涉及細(xì)粒度圖像識別技術(shù)領(lǐng)域,解決現(xiàn)有方法將原始圖像平均分塊后輸入到卷積神經(jīng)網(wǎng)絡(luò)中用于細(xì)粒度圖像分類,存在感受野限制較弱的問題,本發(fā)明不引入額外的參數(shù)與運(yùn)算,在預(yù)測過程中保留通用卷積神經(jīng)網(wǎng)絡(luò)的高效性,不需要過大的感受野的特性將輸入特征圖進(jìn)行分塊,每塊分別進(jìn)行卷積操作后,再重新拼接,具有較強(qiáng)的限制性。本發(fā)明將卷積的感受野按需要進(jìn)行限制,使網(wǎng)絡(luò)更加關(guān)注局部區(qū)域的特征,更適合應(yīng)用于細(xì)粒度圖像分類任務(wù)。本發(fā)明所述的細(xì)粒度圖像分類方法,在不引入更多參數(shù)的前提下,限制卷積層的感受野范圍,使卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)ふ逸^小的有判別力的局部區(qū)域。
技術(shù)領(lǐng)域
本發(fā)明涉及細(xì)粒度圖像識別技術(shù)領(lǐng)域,具體涉及一種基于分塊卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類方法。
背景技術(shù)
在細(xì)粒度圖像識別技術(shù)領(lǐng)域中,現(xiàn)有基于人工智能和深度學(xué)習(xí)的方法大多直接將圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中,通過多層卷積和池化層操作,在前一層的輸出特征圖(Feature Map)上提取特征圖,逐層提取并獲得感受野(Receptive Field,RF),即特征圖上每個特征點(diǎn)映射到輸入圖片上的范圍)更大的特征圖,最終得到感受野為整幅圖像尺寸大小的特征圖(理論感受野可能大于整幅圖像尺寸大小)并用于細(xì)粒度圖像分類。但是,多數(shù)現(xiàn)有方法主要通過在圖像上尋找有判別力的局部區(qū)域,用于識別圖像中物體的種類,例如鳥類中不同顏色的翅膀和不同形狀的喙,機(jī)動車中不同形狀的車燈和輪胎。在這種情況下,更小的感受野能夠使模型更好地提取圖像上的局部特征,進(jìn)而尋找較小的有判別力的局部區(qū)域。然而,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)框架主要通過引入復(fù)雜度較高、參數(shù)量較大的操作,但是仍然很難限制卷積層的感受野大小。
細(xì)粒度視覺分類(Fine-Grained Visual Classification,F(xiàn)GVC)是傳統(tǒng)圖像分類任務(wù)的子任務(wù),指的是對某特定類別物體進(jìn)行更加細(xì)化的分類,例如:區(qū)分不同品種的鳥或狗、不同型號的汽車或飛機(jī)等。細(xì)粒度分類比傳統(tǒng)分類任務(wù)更具有挑戰(zhàn)性,因?yàn)槟繕?biāo)物體與同類別物體的差異可能會大于目標(biāo)物體與不同類別物體的差異,比如兩只同類的鳥可能因?yàn)樽藙莶煌瑢?dǎo)致區(qū)別很大;而兩只不同類的鳥,可能因?yàn)轶w態(tài)接近,只在鳥喙、鳥尾等局部區(qū)域有結(jié)構(gòu)和紋理的差異。
隨著深度學(xué)習(xí)的發(fā)展,CNN已經(jīng)成為圖像分類任務(wù)的主流解決方案。CNN主要由以下幾部分組成:(1)卷積層,用于特征提取;(2)池化層,用于特征選擇和信息過濾;(3)全連接層,對提取到的特征進(jìn)行非線性組合以得到最終輸出。在CNN中,RF的概念指的是指定層的輸出特征圖上一個特征點(diǎn)映射到輸入圖片上的范圍,而卷積層和池化層都有增大感受野的效果,網(wǎng)絡(luò)相鄰層間的感受野關(guān)系計(jì)算方式為:
其中r(l)指第l層卷積層或池化層的感受野,k(l)指第l層卷積層或池化層的核大小,s(l′)指第l′層卷積層或池化層的步長。
現(xiàn)有的細(xì)粒度分類方法主要分為兩種:(1)基于局部定位的方法,需要先利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并找到多個有判別力的區(qū)域,再對這些區(qū)域從原圖上進(jìn)行裁剪,分別執(zhí)行特征提取與分類操作,導(dǎo)致預(yù)測時間較長;此外,這類方法大多要提前設(shè)定用于分類的區(qū)域個數(shù),大大限制了模型的靈活性。(2)基于端到端特征編碼的方法,這類方法大多會在全連接層之前生成一個高維向量,來提高模型表達(dá)能力以適應(yīng)細(xì)粒度分類任務(wù)。而過高的維度帶來的額外運(yùn)算量則大大限制了模型效率。
對于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)來說,其普遍感受野很大,對一般的圖像分類任務(wù)來說,這可以讓模型依據(jù)更大范圍的信息進(jìn)行判斷;但是對于細(xì)粒度任務(wù)來說,過大的感受野增加了類內(nèi)差異對網(wǎng)絡(luò)的影響,使其很難關(guān)注局部的細(xì)節(jié)。
現(xiàn)有文獻(xiàn)《基于拼圖與漸進(jìn)式多粒度學(xué)習(xí)的細(xì)粒度視覺分類》該方法將原始圖像平均分塊并打亂分塊后直接輸入到卷積神經(jīng)網(wǎng)絡(luò)中用于細(xì)粒度圖像分類,不同之處在于(1)該方法只在原始圖像上進(jìn)行分塊;(2)該方法通過打亂分塊的方法限制感受野,限制較弱。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010738474.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





