[發(fā)明專利]一種基于選擇性稀疏采樣的細(xì)粒度圖像分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910942790.8 | 申請(qǐng)日: | 2019-09-30 |
| 公開(kāi)(公告)號(hào): | CN110738247B | 公開(kāi)(公告)日: | 2020-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 焦建彬;丁瑤;葉齊祥;韓振軍;萬(wàn)方 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11426 | 代理人: | 孫建玲;劉冬梅 |
| 地址: | 100049 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 選擇性 稀疏 采樣 細(xì)粒度 圖像 分類 方法 | ||
本發(fā)明提供了一種基于選擇性稀疏采樣的細(xì)粒度圖像分類方法,實(shí)現(xiàn)過(guò)程為:利用分類網(wǎng)絡(luò),通過(guò)在圖像中提取類響應(yīng)圖的方式對(duì)重要部件進(jìn)行定位,盡可能全面的定位到目標(biāo)上對(duì)分類有效的關(guān)鍵部件;再通過(guò)稀疏重采樣的方式對(duì)學(xué)習(xí)到的關(guān)鍵部件分組進(jìn)行局部放大;對(duì)局部放大后的圖像提取特征,并結(jié)合原始圖像特征,通過(guò)分類器確定圖像類別。本發(fā)明利用類峰值響應(yīng)對(duì)應(yīng)視覺(jué)線索的特性,實(shí)現(xiàn)了關(guān)鍵部件的快速定位,比利用檢測(cè)框架定位部件的方式更為快速有效;本發(fā)明通過(guò)稀疏重采樣的方式對(duì)關(guān)鍵部件進(jìn)行局部放大,實(shí)現(xiàn)了對(duì)圖像細(xì)節(jié)的增強(qiáng)同時(shí)保留背景信息,避免了信息丟失。因此,本發(fā)明具有很好的實(shí)用性和擴(kuò)展性,對(duì)細(xì)粒度圖像分類任務(wù)具有重要的意義。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域,尤其涉及一種基于選擇性稀疏采樣的細(xì)粒度圖像分類方法,該方法可以廣泛應(yīng)用于文物保護(hù)、醫(yī)學(xué)圖像等方面,與現(xiàn)有方法相比,具有自適應(yīng)強(qiáng),魯棒性好等特性。
背景技術(shù)
細(xì)粒度圖像分類任務(wù)是視覺(jué)領(lǐng)域中的重要問(wèn)題之一,在動(dòng)植物保護(hù)、醫(yī)學(xué)圖像分析等領(lǐng)域都有著重要的應(yīng)用價(jià)值。傳統(tǒng)的細(xì)粒度圖像分類模型往往需要在圖像中精確標(biāo)注每一個(gè)目標(biāo)甚至于目標(biāo)上每一個(gè)部件的位置。雖然這類方法能夠依靠大量的標(biāo)注信息學(xué)習(xí)目標(biāo)識(shí)別的信息,但是其對(duì)數(shù)據(jù)集的搜集和制作提出了非常高的要求。對(duì)圖像數(shù)據(jù)集中的每一個(gè)目標(biāo)精確標(biāo)注的這一過(guò)程耗時(shí)耗力,尤其是在數(shù)據(jù)集規(guī)模變大的情況下,這很大程度上限制了算法在大規(guī)模細(xì)粒度圖像數(shù)據(jù)集的應(yīng)用。
為了減少建模過(guò)程中的人工標(biāo)注和監(jiān)督,人們提出了僅基于圖像類別標(biāo)簽的細(xì)粒度圖像分類框架。基于圖像類別標(biāo)簽的細(xì)粒度圖像分類框架只要求對(duì)圖像中目標(biāo)給出標(biāo)注,而無(wú)需利用其它形式如包圍框的標(biāo)注信息。這種標(biāo)注方式極大的降低了標(biāo)注的工作量,同時(shí)也能夠直接利用海量的互聯(lián)網(wǎng)圖像資源搜集大規(guī)模的數(shù)據(jù)集。然而,目前的基于圖像標(biāo)簽的細(xì)粒度圖像分類算法訓(xùn)練過(guò)程中因?yàn)槿鄙倬_的部件位置信息而產(chǎn)生了較大的部件定位隨機(jī)性,進(jìn)而影響了算法的穩(wěn)定性和精度,對(duì)細(xì)粒度圖像分類算法的精細(xì)特征學(xué)習(xí)能力提出了更高的要求。
現(xiàn)有的細(xì)粒度圖像分類方法主要有三類:1.基于特征學(xué)習(xí)的方法,這類方法的典型代表為基于分類網(wǎng)絡(luò)的雙線性模型。2.基于判別性部件定位的精細(xì)特征學(xué)習(xí)模型,這類方法多借鑒弱監(jiān)督目標(biāo)檢測(cè)方法實(shí)現(xiàn)對(duì)判別性部件的定位,其次依據(jù)定位結(jié)果將這些部件從原始圖像中裁剪出來(lái)并提取特征,結(jié)合原始圖像特征,完成特征學(xué)習(xí);3.基于注意力機(jī)制的方法,這類方法引入注意力機(jī)制,首選通過(guò)迭代學(xué)習(xí)的方式定位最具有判別力部件,其次將迭代過(guò)程的中間輸出結(jié)果,即部件在不同尺度下的特征進(jìn)行融合。這些方法逐漸被進(jìn)行優(yōu)化,并取得了state-of-the-art的性能。
然而,這些方法都存在不足之處,如:第一類方法更為普適,卻沒(méi)有針對(duì)細(xì)粒度分類任務(wù)中各類別之間差異細(xì)微這一特點(diǎn)進(jìn)行優(yōu)化;第二類方法中基于圖像標(biāo)簽的判別里部件定位過(guò)程往往是復(fù)雜且耗時(shí)的,其次,該方法需要人為的指定部件的個(gè)數(shù),不具備對(duì)圖像內(nèi)容的自適應(yīng)性,此外,該方法使用裁剪的方式提取部件,當(dāng)部件定位不準(zhǔn)確的時(shí)候會(huì)丟失大量的有用信息;第三類方法采用迭代學(xué)習(xí)方式容易造成錯(cuò)誤的累積。這些缺陷限制了學(xué)習(xí)到模型的魯棒性和泛化性。
發(fā)明內(nèi)容
為了克服上述問(wèn)題,本發(fā)明人進(jìn)行了銳意研究,提出了一種基于選擇性稀疏采樣的細(xì)粒度圖像分類方法,利用分類網(wǎng)絡(luò)類響應(yīng)圖(同類激活圖)富含的語(yǔ)義信息,實(shí)現(xiàn)對(duì)具有判別力部件的定位,進(jìn)而提升模型效率以及靈活性,其次,通過(guò)局部放大的方式對(duì)具有判別力的部件在更大尺度上進(jìn)行學(xué)習(xí),避免了信息的丟失。實(shí)驗(yàn)表明,該方法提高了精細(xì)部件的定位速度和精度,并在性能上超越了目前最好的方法(如NTS-CNN)從而完成本發(fā)明。
本發(fā)明的目的在于提供以下技術(shù)方案:
本發(fā)明的目的在于提供一種基于選擇性稀疏采樣的細(xì)粒度圖像分類方法,該方法包括訓(xùn)練分類模型用以進(jìn)行目標(biāo)分類的過(guò)程,分類模型的訓(xùn)練過(guò)程包括以下步驟:
步驟1:關(guān)鍵部件定位:將圖像輸入到一個(gè)分類網(wǎng)絡(luò)中,輸出其對(duì)應(yīng)的類響應(yīng)圖,在類響應(yīng)圖上提取類峰值響應(yīng);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院大學(xué),未經(jīng)中國(guó)科學(xué)院大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910942790.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:產(chǎn)品分類方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 下一篇:狀態(tài)感知數(shù)據(jù)特征提取方法及裝置、系統(tǒng)性能評(píng)估方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





