[發(fā)明專利]基于圖注意力網(wǎng)絡(luò)的多標簽圖像識別方法有效
| 申請?zhí)枺?/td> | 202110316665.3 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN112906720B | 公開(公告)日: | 2022-03-22 |
| 發(fā)明(設(shè)計)人: | 班曉曉;申偉昊;韓錦恒;向順;許乾劍;張記龍;郭世杰;王元全 | 申請(專利權(quán))人: | 河北工業(yè)大學(xué) |
| 主分類號: | G06V10/44 | 分類號: | G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津翰林知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 12210 | 代理人: | 付長杰;張國榮 |
| 地址: | 300401 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 網(wǎng)絡(luò) 標簽 圖像 識別 方法 | ||
本發(fā)明為一種基于圖注意力網(wǎng)絡(luò)的多標簽圖像識別方法,包括:第一步,待識別的多標簽圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)輸入層的預(yù)處理后進入卷積神經(jīng)網(wǎng)絡(luò),利用全局共現(xiàn)特征提取模塊提取共現(xiàn)特征矩陣;第二步,利用待識別的多標簽圖像的標簽節(jié)點之間的條件概率,構(gòu)建標簽節(jié)點之間的鄰接矩陣;第三步,將鄰接矩陣作為圖注意力網(wǎng)絡(luò)的輸入,經(jīng)過圖注意力網(wǎng)絡(luò)學(xué)習(xí)得到學(xué)習(xí)后的矩陣;第四步,將共現(xiàn)特征矩陣與學(xué)習(xí)后的矩陣進行線性相乘,得到識別結(jié)果。該方法利用全局共現(xiàn)特征提取模塊提取圖像中的共現(xiàn)特征矩陣,提取圖像全局共現(xiàn)特征與總體信息;通過圖注意力網(wǎng)絡(luò)的注意力機制計算標簽節(jié)點之間的關(guān)聯(lián)性,對每個標簽節(jié)點自適應(yīng)分配不同的權(quán)重,有利于提高識別精度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機圖像處理領(lǐng)域,具體是一種基于圖注意力網(wǎng)絡(luò)的多標簽圖像識別方法。
背景技術(shù)
圖像識別技術(shù)能夠代替人力去處理大量繁多復(fù)雜的圖像,圖像識別被廣泛應(yīng)用于多個領(lǐng)域,如醫(yī)學(xué)診斷、智能圖像管理、相冊搜索等。
在眾多的圖像信息處理中,圖像識別實際上是一個分類的過程,即尋找識別出圖像中固有的特征,使其區(qū)分于其他不同類別的圖像而歸類,這就要求所選取的特征為最具有區(qū)別性的特征,最具有區(qū)別性的特征可以很好地區(qū)分于不同類別的圖像,同時該特征可以形象地描述圖像,即選取擁有較小的類內(nèi)距的同時盡量擁有較大的類間距的圖像特征,這些特征在同類圖像之間差異較小,在不同類別的圖像之間差異較大。
隨著卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的出現(xiàn),圖像識別的整體性能得到了極大的提高。CNNs中的卷積層主要利用一定規(guī)格的濾波器實現(xiàn)空間特征的提取,即對各個像素點及其相鄰像素點進行加權(quán)求和的運算來構(gòu)造特征圖。CNNs一般具有輸入層、卷積層、激活層、池化層、輸出層五個層級結(jié)構(gòu)。其中,對圖像進行預(yù)處理操作一般發(fā)生在輸入層,圖像經(jīng)由輸入層的裁剪、伸縮及標準化之后進入卷積層通過卷積操作提取特征,進行局部感知,獲取特征圖。激活層的目的是為了增強整個網(wǎng)絡(luò)的表達能力,通常是對卷積層的輸出結(jié)果做一次非線性映射,常見的激活函數(shù)有sigmoid、tanh、relu、leaky relu等。池化層實際上也可以被稱為欠采樣或下采樣層,主要用于特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性,最常見的有最大池化(Max Pooling)和平均池化(Average Pooling)兩種。在池化層后是輸出層,即全連接層,后接分類器,如softmax分類器等。
近幾年,許多基于CNNs的經(jīng)典圖像分類網(wǎng)絡(luò)模型被提出,如AlexNet模型、GoogLeNet模型、VGGNet模型、ResNet殘差網(wǎng)絡(luò)等。其中,ResNet殘差網(wǎng)絡(luò)在2015年首次被提出,其中殘差學(xué)習(xí)的思想有效地解決了傳統(tǒng)網(wǎng)絡(luò)模型在信息傳遞的過程中容易將有效信息丟失,同時還會出現(xiàn)梯度消失或梯度爆炸的問題,該網(wǎng)絡(luò)不僅可以加速深層網(wǎng)絡(luò)的訓(xùn)練,同時可以有效地提升圖像識別的準確率。
最新研究表明,以CNNs為基礎(chǔ)的模型可以簡單地提高單標簽圖像的識別速度和精度,使得單標簽圖像識別有了重要的進步。然而,在日常生活的場景中,大多數(shù)的圖像中不僅僅只有一個事物,而是存在多個物體,將這類圖像中的每個物體設(shè)為一個標簽,那么這些擁有多個標簽同時出現(xiàn)的圖像便可稱作多標簽圖像。與傳統(tǒng)的單標簽圖像識別相比,多標簽圖像識別的任務(wù)需要預(yù)測圖像中的一組標簽,所以更加復(fù)雜。比如一張圖片中包含貓、狗和球三個物體,那么便可以為圖像賦予貓、狗、球三個標簽,即通過這三個標簽將圖像分到三個不同的類別中。由于現(xiàn)實生活中狗與貓兩個事物共同出現(xiàn)在一張圖像上的可能性遠遠大于它們與球出現(xiàn)在同一圖像中,因此三個標簽之間的權(quán)重占比是不一樣的。
由于多標簽圖像中各個標簽之間存在相對復(fù)雜的關(guān)聯(lián)性,多標簽圖像識別技術(shù)需要對圖像信息和圖像中的類別標簽有更加充分的了解,因此針對多標簽的特征提取與識別研究更為重要。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河北工業(yè)大學(xué),未經(jīng)河北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316665.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





