[發(fā)明專利]基于CNN的分片多尺度特征融合的圖像分類方法有效
| 申請?zhí)枺?/td> | 201911150614.7 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN111079795B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 薛濤;洪洋 | 申請(專利權(quán))人: | 西安工程大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06V10/82;G06N3/0464 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 曾慶喜 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 cnn 分片 尺度 特征 融合 圖像 分類 方法 | ||
本發(fā)明公開了基于CNN的分片多尺度特征融合的圖像分類方法,該方法按照以下步驟實施,首先獲得已標注的圖像訓練集并進行預處理增強樣本多樣性,得到完整圖像訓練集;其次構(gòu)建分片多尺度特征融合的特征提取卷積模塊,卷積模塊對完整圖像訓練集中的圖像進行特征轉(zhuǎn)換和特征提取,獲取表示該圖像樣本的圖像特征向量;將圖像特征向量接入softmax分類器作為圖像識別的輸出;最后通過隨機梯度下降法和反向傳播算法訓練獲得的神經(jīng)網(wǎng)絡(luò)模型,損失函數(shù)收斂訓練結(jié)束后即得到最終完成的模型。本發(fā)明的基于CNN的分片多尺度特征融合的圖像分類方法,有效打破了不同網(wǎng)絡(luò)優(yōu)化范式間的壁壘,進一步提升網(wǎng)絡(luò)模型對圖像特征提取的性能,提高了模型精度。
技術(shù)領(lǐng)域
本發(fā)明屬于基于深度學習的計算機視覺技術(shù)領(lǐng)域,具體涉及一種基于?CNN的分片多尺度特征融合的圖像分類方法。
背景技術(shù)
隨著CNN(卷積神經(jīng)網(wǎng)絡(luò))在2012年的LSVRC圖像分類大賽上的巨大成功,引發(fā)了CNN在計算機視覺任務(wù)上的研究熱潮。傳統(tǒng)的圖像分類方法需要根據(jù)大量的先驗知識進行手工的特征提取,這種方式不但費時而且提取的特征的效果并不理想。相對傳統(tǒng)方法,CNN的最大魅力在于在足夠算力的支持下,只要擁有充足的訓練數(shù)據(jù),CNN就能自動根據(jù)訓練樣本的分布學習出代表原始圖像的最好的特征,因此“數(shù)據(jù)驅(qū)動”是區(qū)別于傳統(tǒng)方法最顯著的特征。
一方面,為了解決網(wǎng)絡(luò)過深,參數(shù)太多難以優(yōu)化的問題Inception系列方法利用多尺度融合的策略在增加網(wǎng)絡(luò)寬度的同時精心設(shè)計每一層網(wǎng)絡(luò)的結(jié)構(gòu),證明了通過利用特征多尺度融合的方法增加網(wǎng)絡(luò)寬度能夠有效提高網(wǎng)絡(luò)性能。
另一方面,在探索深度網(wǎng)絡(luò)中,在殘差網(wǎng)絡(luò)ResNet被提出之前,“梯度消失”一直是阻礙構(gòu)建更深層網(wǎng)絡(luò)的詬病,ResNet提出了跳層連接的“shortcut?connection”,能夠保證即使構(gòu)建幾百層網(wǎng)絡(luò),梯度也不會消失。殘差網(wǎng)絡(luò)到目前為止一直實現(xiàn)深度網(wǎng)絡(luò)的主流范式。
除了網(wǎng)絡(luò)的寬度與深度,ResNeXt引入了新的超參數(shù)“基數(shù)”,提出了分組卷積的方法,其基數(shù)就代表分組的個數(shù)。在這之前網(wǎng)絡(luò)模型的容量主要是通過調(diào)節(jié)網(wǎng)絡(luò)的寬度與深度實現(xiàn)的,ResNeXt表明“基數(shù)”也能起到調(diào)節(jié)網(wǎng)絡(luò)模型的容量的作用,同時證明了通過增大“基數(shù)”比通過加深網(wǎng)絡(luò)提高網(wǎng)絡(luò)性能的方法更加有效。
但這幾種優(yōu)化范式都是在如網(wǎng)絡(luò)寬度或網(wǎng)絡(luò)深度等的單一維度中提出,對進一步提升網(wǎng)絡(luò)整體性能,具有一定局限性。為了探索多優(yōu)化范式融合的可能性,進一步解放CNN神經(jīng)網(wǎng)絡(luò)模型的潛能,本發(fā)明在網(wǎng)絡(luò)深度上結(jié)合殘差連接;在網(wǎng)絡(luò)寬度上結(jié)合多尺度特征融合;在網(wǎng)絡(luò)“基數(shù)”上結(jié)合分組卷積提出了一種新的特征轉(zhuǎn)換策略,通過在分組卷積中引入多尺度特征融合的方法,來擴展網(wǎng)絡(luò)寬度,增強模型的表達能力。
發(fā)明內(nèi)容
本發(fā)明的目的是提供基于CNN的分片多尺度特征融合的圖像分類方法,打破各網(wǎng)絡(luò)優(yōu)化范式間的壁壘,進一步提升網(wǎng)絡(luò)模型對圖像分類的性能。
本發(fā)明所采用的技術(shù)方案是,基于CNN的分片多尺度特征融合的圖像分類方法,該方法按照以下步驟實施,
步驟1:下載公共圖像分類訓練集或使用自主標注圖像訓練樣本標簽的訓練集;
步驟2:對步驟1準備好的圖像訓練集進行預處理,進一步擴充圖像訓練樣本集,增加訓練樣本的多樣性,得到完整圖像訓練集;
步驟3:使用多尺度特征融合的圖像特征提取方法構(gòu)建特征提取的卷積模塊,卷積模塊對步驟2完整圖像訓練集中的圖像進行特征轉(zhuǎn)換和特征提取,獲取表示該圖像樣本的圖像特征向量;
步驟4:使用步驟3得到的圖像特征向量作為輸入,構(gòu)建softmax分類器;
步驟5:將步驟3擴充訓練樣本集中的圖像均分為多個樣本包,采用?SGD隨機梯度下降法和反向傳播算法訓練網(wǎng)絡(luò)優(yōu)化損失函數(shù),逐層調(diào)整損失函數(shù)的權(quán)值,直到損失函數(shù)不再收斂,結(jié)束網(wǎng)絡(luò)訓練,得到神經(jīng)網(wǎng)絡(luò)模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安工程大學,未經(jīng)西安工程大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911150614.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像語義標注的設(shè)備和方法及其模型的生成方法和系統(tǒng)
- 使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
- 為數(shù)據(jù)庫確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 采用嵌入式系統(tǒng)中的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)模塊的人臉檢測
- 針對深度通道和卷積神經(jīng)網(wǎng)絡(luò)圖像和格式使用相機設(shè)備的方法和系統(tǒng)
- 處理卷積神經(jīng)網(wǎng)絡(luò)的方法
- CNN加速器和電子設(shè)備
- 一種基于混合神經(jīng)網(wǎng)絡(luò)的腦電時空特征學習與情感分類方法
- 一種基于FPGA的深度學習加速方法





