[發(fā)明專利]一種基于二階注意力機制的孿生網(wǎng)絡圖像檢索方法在審
| 申請?zhí)枺?/td> | 202110410902.2 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113190706A | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設計)人: | 廖開陽;范冰;鄭元林;章明珠;黃港 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 孿生 網(wǎng)絡 圖像 檢索 方法 | ||
本發(fā)明公開了一種基于二階注意力機制的孿生網(wǎng)絡圖像檢索方法,包括:對查詢圖像和訓練圖像進行背景減除處理;在卷積神經(jīng)網(wǎng)絡的卷積層后增加二階注意力機制,得到二階注意力卷積神經(jīng)網(wǎng)絡;將處理后的查詢圖像、訓練圖像分別輸入二階注意力卷積神經(jīng)網(wǎng)絡進行特征提取,得到查詢圖像特征、訓練圖像特征;將查詢圖像特征、訓練圖像特征進行全局平均池化、L2歸一化后得到查詢圖像描述符、訓練圖像描述符;將查詢圖像描述符、訓練圖像描述符進行相似性度量,按照相似度對訓練圖像描述符進行排序,得到排序結果;對排序結果進行重排,檢索得到與查詢圖像最相似的訓練圖像。能提高檢索精度,節(jié)約檢索時間,實現(xiàn)了快速、高效、準確的目的。
技術領域
本發(fā)明屬于圖像處理方法技術領域,涉及一種基于二階注意力機制的孿生網(wǎng)絡圖像檢索方法。
背景技術
在互聯(lián)網(wǎng)時代,尤其是隨著Flickr、Facebook等社交網(wǎng)站的流行,圖像、視頻、音頻、文本等異構數(shù)據(jù)每天都在以驚人的速度增長。例如,F(xiàn)acebook注冊用戶超過10億,每月上傳超過10億的圖片;Flickr圖片社交網(wǎng)站2015年用戶上傳圖片數(shù)目達7.28億,平均每天用戶上傳約200萬的圖片;中國最大的電子商務系統(tǒng)淘寶網(wǎng)的后端系統(tǒng)上保存著286億多張圖片。針對這些包含豐富視覺信息的海量圖片,如何在這些浩瀚的圖像庫中方便、快速、準確地查詢并檢索到用戶所需的或感興趣的圖像,成為多媒體信息檢索領域研究的熱點。基于內(nèi)容的圖像檢索方法充分發(fā)揮了計算機長于處理重復任務的優(yōu)勢,將人們從需要耗費大量人力、物力和財力的人工標注中解放出來。經(jīng)過十來來的發(fā)展,基于內(nèi)容的圖像檢索技術已廣泛應用于搜索引擎、電子商務、醫(yī)學、紡織業(yè)、皮革業(yè)等生活的方方面面。
圖像檢索實現(xiàn)了對圖像庫的有效查詢和管理,它是指從大規(guī)模圖像數(shù)據(jù)庫中檢索出與問文本查詢或視覺查詢相關的圖像。目前圖像檢索主要有基于文本的圖像檢索(text-based image retrieval,TBIR)、基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)和基于語義的圖像檢索(semantic-based image retrieval,SBIR)。基于文本的圖像檢索,主要是利用文本描述圖像的特征,然后再通過文本匹配進行圖像的檢索。目前基于文本的檢索技術已經(jīng)發(fā)展成熟,如概率方法、Page-Rank方法、摘要方法、位置方法、分類或詞性標注法、聚類方法等(Cheng A,Friedman E.Manipulability of PageRank under sybilstrategies[J].NetEcon,2006.)。基于內(nèi)容的圖像檢索技術,它是對圖像的內(nèi)容,如圖像的形狀、紋理等低層特征進行查詢和分析的圖像檢索技術。通過對圖像的視覺內(nèi)容進行數(shù)學描述來提取圖像特征,利用這些低層特征的數(shù)學描述去反映圖像本身的視覺內(nèi)容。基于語義的圖像檢索技術,與CBIR不同的是,SBIR是解決“語義鴻溝”的重要方法及思路,它不但考慮了低層視覺特征,而且考慮了圖像的高層特征,如場景、情感和空間關系等方面的圖像信息。在2012年,Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Imagenetclassification with deep convolutional neural networks[c]//Advances in neuralinformation processing systems,2012:1097-1105.)在ImageNet LSVRC大賽上利用AlexNet獲得了最高的準確率,從那之后興起了一些基于深度學習的圖像檢索算法,廣泛應用在圖像語義分割、目標識別、圖像分類以及圖像檢索等領域。在深度學習算法中特別是卷積神經(jīng)網(wǎng)絡的檢索效果最好,它利用多個池化層和卷積層的組合得到圖像的視覺特征,并與反饋及分類技術相結合從而實現(xiàn)了較好的檢索結果。
目前面對的問題是對于圖像檢索精度還有待進一步提高,以及增加檢索方法的智能化和多樣化。如何快速高效準確的檢索到用戶需要的圖像是圖像檢索領域的重要課題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于二階注意力機制的孿生網(wǎng)絡圖像檢索方法,解決了現(xiàn)有技術中存在的圖像檢索精度較低的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經(jīng)西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110410902.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)控機床數(shù)字孿生建模方法
- 一種基于數(shù)字孿生模型的時序類潛在問題識別方法及系統(tǒng)
- 一種礦井數(shù)字孿生模型及其構建方法
- 一種以統(tǒng)一形式樣機模型定義數(shù)字孿生體的方法及裝置
- 基于數(shù)字孿生體的醫(yī)療設備定位方法、系統(tǒng)和存儲介質(zhì)
- 一種基于機器視覺的數(shù)字孿生模型修正方法與系統(tǒng)
- 一種基于數(shù)字孿生的泵機組優(yōu)化運行調(diào)節(jié)系統(tǒng)及方法
- 數(shù)字孿生模型的運行方法、裝置和電子設備
- 一種組件式孿生計算方法及系統(tǒng)
- 一種基于數(shù)字孿生的空間在軌激光加工過程實時監(jiān)測方法





