[發明專利]一種基于注意力機制圖像檢索的LOGO識別方法在審
| 申請號: | 202010558069.1 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111881906A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 張容琛 | 申請(專利權)人: | 廣州萬維創新科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/46;G06K9/62;G06F17/14;G06F17/16;G06N3/04 |
| 代理公司: | 廣州致信偉盛知識產權代理有限公司 44253 | 代理人: | 李東來 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 圖像 檢索 logo 識別 方法 | ||
本發明公開了一種基于注意力機制圖像檢索的LOGO識別方法,先通過獲取圖像中包含LOGO的區域判斷是否存在LOGO,接著通過將圖像中包含LOGO的區域進行截取,由特征提取網絡獲取包含LOGO區域的特征張量;將包含LOGO區域的特征張量進行特征壓縮得到特征向量,最后通過將包含LOGO區域的特征向量與圖像庫中LOGO的特征向量進行特征空間距離運算,選擇距離最短的圖像作為匹配到的LOGO,讀取匹配到的LOGO的特征編碼對應的標簽,將匹配LOGO的標簽作為待識別LOGO的標簽確定LOGO的標簽。在該邏輯之下,可以將不存在LOGO的情況過濾,去除無效的運算過程,提高了運行效率,解決了圖像檢索過程中由于背景占比較大造成的檢索錯誤率高的問題。
技術領域
本發明涉及LOGO識別技術領域,具體為一種基于注意力機制圖像檢索的LOGO識別方法。
背景技術
LOGO(商標/徽標),其是人們在長期的生活和實踐中形成的一種視覺化的信息表達方式,具有一定含義并能夠使人理解的視覺圖形,具有簡潔、明確、一目了然的視覺傳遞效果。傳統的LOGO識別方法包括:方法(1)單獨通過目標檢測方法實現少量特定的LOGO 識別;方法(2)單獨通過圖像檢索方法實現特定的相似 LOGO 圖像搜索和匹配。
方法(1)目標檢測方法按處理流程可分為兩大類:Two Stage、One Stage。TwoStage 分兩步實現目標檢測,首先通過特征網絡生成樣本候選框,然后通過分類網絡 對候選框進行分類,典型算法包括 Fast R-CNN,Faster R-CNN,優點是精度高,缺 點是模型復雜,參數多,推理速度慢。One Stage 目標檢測算法直接通過卷積神經網絡的輸出回歸得到目標類別概率和邊界框,典型算法包括 YOLO3,SSD,RetinaNet 優點是模型參數少,推理速度快,缺點是精度稍差。局限性在于,使用目標檢測算法無法做到大規模LOGO識別的精確分類,大規模的 LOGO識別涉及成千上萬種類別的LOGO,而目標檢測是通過讀取卷積層 輸出各個維度的特征向量來獲取目標的類別置信度信息的,因此目標檢測神經網絡的 參數量與需要識別的目標種類數成正比,通常目標檢測模型僅適用于針對數十種類的 目標識別。因此,如果使用方法(1)做大規模 LOGO識別,那么會面臨兩個無法解決的 問題:1.數據集的類別樣本不均衡會導致 LOGO識別分類精度很低,造成大量誤判的 情況出現。2.大大增加了神經網絡卷積層的參數,使深度學習模型變得非常大,前向推理時間大大增加,導致模型無法進行部署和應用。
方法(2)圖像檢索方法由三部分組成:圖像特征獲取、圖像特征編碼、圖像特征匹配。圖像特征獲取有兩種方法:1.是通過傳統圖像圖形學方法例如 SIFT、SURF、ORB等方法獲取圖像特征描述子。2.是通過深度卷積神經網絡獲取圖像特征。圖像特征編碼通常使用Hashing方法,圖像特征匹配通常使用 Hanming-Distance 描述特征碼的距離。方法(2)與方法(1)相比,優點是不受 LOGO種類的制約,也不受數據集樣本不均衡的影響。其局限性在于,特征提取是面向整張圖片的,而圖 1 中矩形LOGO框內的區域是有效特征信息,其余都是噪聲信息,經過特征工程獲得的全局特征向量中的噪聲特征信息往往占比較大,在該種情況下進行特征編碼,特征匹配后檢索得到的圖像往往是圖像背景相似而不是對應的LOGO圖像的情況。
發明內容
本發明目的在于提供一種高效準確的基于注意力機制圖像檢索的LOGO識別方法。
本發明所述的一種基于注意力機制圖像檢索的LOGO識別方法,包括以下步驟:
步驟S1:獲取圖像中包含LOGO的區域;
步驟S2:將圖像中包含LOGO的區域進行截取,由特征提取網絡獲取包含LOGO區域的特征張量;
步驟S3:將包含LOGO區域的特征張量進行特征壓縮得到特征向量;
步驟S4:將包含LOGO區域的特征向量與圖像庫中LOGO的特征向量進行特征空間距離運算,選擇距離最短的圖像作為匹配到的LOGO;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州萬維創新科技有限公司,未經廣州萬維創新科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010558069.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種意圖識別的方法
- 下一篇:一種貫流風葉及空調器
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





