[發(fā)明專利]一種基于視覺自注意力機(jī)制的弱監(jiān)督細(xì)粒度圖像識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010311761.4 | 申請(qǐng)日: | 2020-04-20 |
| 公開(公告)號(hào): | CN111539469B | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 李春國;劉楊;楊哲;楊綠溪;徐琴珍 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06V10/762 | 分類號(hào): | G06V10/762;G06V10/764;G06V10/82;G06V10/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 王安琪 |
| 地址: | 211189 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視覺 注意力 機(jī)制 監(jiān)督 細(xì)粒度 圖像 識(shí)別 方法 | ||
本發(fā)明公開了一種基于視覺自注意力機(jī)制的弱監(jiān)督細(xì)粒度圖像識(shí)別方法,包含student?model、teacher?model以及classification?model模塊;student?model和teacher?model經(jīng)基于Pairwise Approach排序?qū)W習(xí)的Teacher?Student循環(huán)反饋機(jī)制聯(lián)合,構(gòu)成自注意力區(qū)域推薦網(wǎng)絡(luò),從而增強(qiáng)判別性區(qū)域定位與細(xì)粒度特征學(xué)習(xí)之間的聯(lián)系,在缺少目標(biāo)邊界框和部位標(biāo)注點(diǎn)的情況下依然能夠較為準(zhǔn)確地檢測(cè)細(xì)粒度圖像中判別性區(qū)域,促使識(shí)別準(zhǔn)確率顯著提高;同時(shí),student?model、teacher?model和classification?model三個(gè)模塊共享卷積層,有效壓縮模型存儲(chǔ)空間并降低計(jì)算成本,使得該方法滿足實(shí)時(shí)性識(shí)別任務(wù)要求,適用于大規(guī)模真實(shí)場(chǎng)景;此外,多任務(wù)聯(lián)合學(xué)習(xí)中采用動(dòng)態(tài)權(quán)重分配機(jī)制減少人為設(shè)定超參數(shù)量,增強(qiáng)模型魯棒性,最終整體模型通過端到端的單階段方式進(jìn)行訓(xùn)練與學(xué)習(xí),降低網(wǎng)絡(luò)優(yōu)化難度。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺技術(shù)領(lǐng)域,尤其是一種基于視覺自注意力機(jī)制的弱監(jiān)督細(xì)粒度圖像識(shí)別方法。
背景技術(shù)
細(xì)粒度圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域一項(xiàng)頗具挑戰(zhàn)性的研究課題,目的是區(qū)分同一大類下各個(gè)不同的子類。與跨物種的粗粒度圖像識(shí)別任務(wù)相比,細(xì)粒度圖像數(shù)據(jù)集中不同種類的目標(biāo)外觀相似度較高,而同一種類的目標(biāo)由于光照、姿勢(shì)和視角等因素導(dǎo)致視覺差異顯著,因此使用一般的深度學(xué)習(xí)圖像識(shí)別技術(shù)難以準(zhǔn)確地判別細(xì)粒度目標(biāo)類別。以往研究表明,細(xì)粒度圖像識(shí)別任務(wù)的難點(diǎn)在于判別性區(qū)域定位和細(xì)粒度特征學(xué)習(xí),現(xiàn)有的研究工作也基本上是圍繞這兩個(gè)方向開展。強(qiáng)監(jiān)督細(xì)粒度識(shí)別模型利用目標(biāo)邊界框或部位標(biāo)注點(diǎn)等額外的監(jiān)督信息,使得網(wǎng)絡(luò)具有自主檢測(cè)細(xì)粒度圖像判別性區(qū)域的能力。然而由于手工標(biāo)注的監(jiān)督信息獲取代價(jià)高昂,致使這項(xiàng)技術(shù)無法應(yīng)用于大規(guī)模實(shí)際問題。與此同時(shí),弱監(jiān)督細(xì)粒度識(shí)別模型多依賴于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取與表達(dá)能力來提升識(shí)別準(zhǔn)確率。例如,ResNet系列網(wǎng)絡(luò)(詳見K.He,X.Zhang,S.Ren.Deep Residual Learning forImage Recognition.CVPR,2015.)優(yōu)化殘差函數(shù)使得網(wǎng)絡(luò)層級(jí)擴(kuò)展至152,有效學(xué)習(xí)深層語義信息;Bilinear CNN(詳見T.Lin.Bilinear CNN Models for Fine-Grained VisualRecognition.ICCV,2015.)通過雙線性池化捕捉特征通道間的相關(guān)關(guān)系,進(jìn)而挖掘潛藏信息。盡管上述兩類方法已取得初步的成果,但是由于割裂判別性區(qū)域定位與細(xì)粒度特征學(xué)習(xí)之間的聯(lián)系,因而后續(xù)發(fā)展受限。
針對(duì)這一問題,注意力機(jī)制(Attention Mechanism)通過相互增強(qiáng)、彼此促進(jìn)的方式加深區(qū)域定位和特征學(xué)習(xí)之間的聯(lián)系,從而自主檢測(cè)圖像顯著性區(qū)域,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。注意力機(jī)制源于對(duì)人類視覺的研究,在認(rèn)知學(xué)科中,人類為了合理利用有限的視覺信息處理資源,在圖像觀察過程中會(huì)選擇性地關(guān)注其中某些重點(diǎn)區(qū)域,而忽略其他可見信息,這一機(jī)制通常稱為注意力機(jī)制。然而,利用圖像級(jí)標(biāo)簽弱監(jiān)督信息構(gòu)建注意力機(jī)制實(shí)現(xiàn)細(xì)粒度圖像識(shí)別存在一個(gè)關(guān)鍵性問題,即如何借助圖像級(jí)標(biāo)簽信息來確定目標(biāo)或判別性區(qū)域的空間位置。早期的注意力檢測(cè)方案基于顏色、紋理等底層特征搜索圖像中顏色對(duì)比度高或紋理突出的區(qū)域,這種方法在一定程度上符合人類認(rèn)知和思維方式,因此具有較強(qiáng)的解釋性。但是由于底層特征多采用手工方式進(jìn)行提取,缺少來自高層語義信息的指導(dǎo)與反饋,導(dǎo)致此類方法在復(fù)雜場(chǎng)景中失效。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010311761.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





