[發(fā)明專利]基于變換器模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像場景分類方法有效
| 申請?zhí)枺?/td> | 202110683770.0 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113128527B | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計(jì))人: | 謝毓湘;張家輝;宮銓志;閆潔;欒悉道;魏迎梅;康來;蔣杰 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225 | 代理人: | 段盼姣 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 變換器 模型 卷積 神經(jīng)網(wǎng)絡(luò) 圖像 場景 分類 方法 | ||
本申請涉及一種基于變換器模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像場景分類方法。所述方法包括:在對圖像進(jìn)行場景分類的過程中,用到了兩種卷積神經(jīng)網(wǎng)絡(luò)以及變換器模型,其中變換器模型用以在場景圖像底層建立全局要素之間的相互聯(lián)系,有效地彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)在場景圖像特征提取上的不足,使得網(wǎng)絡(luò)可以從一開始就關(guān)注場景中的重點(diǎn)區(qū)域,從而提升了場景分類的效果。將卷積神經(jīng)網(wǎng)絡(luò)提取的特征作為變換器模型的額外輸入,旨在引導(dǎo)編碼單元將關(guān)注重點(diǎn)放在可以與深度特征形成良好補(bǔ)充的區(qū)域,并且從另一方面建立了網(wǎng)絡(luò)底層和高層之間的聯(lián)系,從而使得模型表達(dá)更加全面充分。
技術(shù)領(lǐng)域
本申請涉及圖像場景分類技術(shù)領(lǐng)域,特別是涉及一種基于變換器模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像場景分類方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)多媒體技術(shù)的發(fā)展和視覺數(shù)據(jù)的增長,如何處理這些海量的數(shù)據(jù)成為了新時(shí)代的難題。場景分類技術(shù),作為解決圖像檢索、圖像識別問題的關(guān)鍵技術(shù),已成為計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要且極具挑戰(zhàn)的研究課題。同時(shí),場景分類在遙感圖像分析、視頻監(jiān)控、機(jī)器人感知等領(lǐng)域都具有廣泛的應(yīng)用。因此,對于場景分類技術(shù)進(jìn)行相應(yīng)的研究和提高計(jì)算機(jī)場景識別能力具有十分重要的意義。
所謂圖像場景分類,是指對于已經(jīng)給定的圖像,通過判斷識別它所包含的信息和內(nèi)容來判斷其所屬的場景,從而達(dá)到分類的目的。近年來,深度學(xué)習(xí)技術(shù)迅速發(fā)展,逐漸取代了傳統(tǒng)手工設(shè)計(jì)圖像特征的方法,在場景分類領(lǐng)域取得了全新的進(jìn)展。尤其是遷移學(xué)習(xí)的出現(xiàn),很好地解決了深度學(xué)習(xí)需要大量的訓(xùn)練樣本,這對于一些小規(guī)模的場景數(shù)據(jù)集而言并不能滿足的問題。在基于深度學(xué)習(xí)的場景分類方法中,往往會用到兩類預(yù)訓(xùn)練模型,一種在Places365數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,提取的特征稱為場景特征。一種在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,提取的特征稱為場景特征。在早期的基于深度學(xué)習(xí)的場景分類方法中,往往是針對這兩類特征進(jìn)行的優(yōu)化,例如去除冗余、添加細(xì)節(jié),以及使用更多的場景特征進(jìn)行補(bǔ)充,然而,無論是哪個(gè)方面的優(yōu)化,都是建立在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行的,這也給該類算法帶來了局限性。卷積核是卷積神經(jīng)網(wǎng)絡(luò)的核心,它具有局部連接、參數(shù)共享的優(yōu)勢,但是,它也存在無法在圖像底層對全局進(jìn)行建模的不足,受限于卷積核的大小,對于圖像特征的提取往往是通過多層卷積的堆疊一步步完成對整幅圖像的全局特征提取,會導(dǎo)致相距過遠(yuǎn)又相互聯(lián)系的兩個(gè)區(qū)域在較深的層才能進(jìn)行關(guān)聯(lián),這并不是一種高效的方式,且無法充分利用全局信息完成特征的提取。而場景圖像的內(nèi)容較之單個(gè)對象圖像更加豐富,把握要素之間的相互關(guān)系便顯得尤為重要,如果僅僅只是依靠卷積神經(jīng)網(wǎng)絡(luò)在深層對要素進(jìn)行關(guān)聯(lián),則容易導(dǎo)致一些信息的丟失,從而造成分類性能的下降。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種能夠提高場景分類性能的基于變換器模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像場景分類方法。
一種基于變換器模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像場景分類方法,所述方法包括:
獲取圖像樣本;
將所述圖像樣本輸入場景分類模型,所述場景分類模型包括場景卷積神經(jīng)網(wǎng)絡(luò)、對象卷積神經(jīng)網(wǎng)絡(luò)以及變換器模型;
其中,所述場景卷積神經(jīng)網(wǎng)絡(luò)以及對象卷積神經(jīng)網(wǎng)絡(luò)均以緊密網(wǎng)絡(luò)161為基礎(chǔ)進(jìn)行構(gòu)建,所述緊密網(wǎng)絡(luò)161是指DenseNet161;
其中,所述變換器模型包括12層依次連接的編碼單元以及12層依次連接的解碼單元,其中最后一層編碼單元的輸出與各層解碼單元連接;
所述編碼單元包括兩個(gè)層歸一化層、多頭自注意力層以及多層感知機(jī)層,所述層歸一化層是指LayerNorm層;
所述解碼單元包括兩個(gè)層歸一化層、多頭自注意力層、多層感知機(jī)層以及多頭注意力層;
對所述圖像樣本進(jìn)行預(yù)處理得到標(biāo)準(zhǔn)化圖像樣本,分別通過所述場景卷積神經(jīng)網(wǎng)絡(luò)以及對象卷積神經(jīng)網(wǎng)絡(luò)對所述標(biāo)準(zhǔn)化圖像樣本進(jìn)行特征提取,相應(yīng)得到場景特征以及對象特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110683770.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





