[發明專利]一種基于多層視覺表達和深度網絡的手繪圖像檢索方法在審
| 申請號: | 201711085841.7 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107748798A | 公開(公告)日: | 2018-03-02 |
| 發明(設計)人: | 于鄧;劉玉杰;王文超;龐蕓萍 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層 視覺 表達 深度 網絡 手繪 圖像 檢索 方法 | ||
技術領域
本發明屬于計算機視覺與深度學習領域,涉及基于多層視覺表達和深度網絡的手繪圖像檢索方法。
背景技術
手繪涂鴉對于人類是非常直觀且通用的工具,從遠古時期就被用來刻畫人類所存在的現實的視覺世界。研究表明,手繪圖片擁有與真實圖片相同的機制來激活人類大腦皮層的視覺區域。近年來,隨著可觸屏設備的數量日益龐大,比如像觸屏手機、觸屏平板電腦等,基于手繪圖像檢索技術研究變得日益繁盛和重要起來。與傳統的使用文本和基于圖像內容的檢索(比如谷歌圖像搜索引擎)相比,手繪圖像檢索所擁有的靈活、新鮮的購物體驗、方便易操作等優勢正不斷在吸引著用戶。
目前,大多數的手繪圖像檢索技術大體上延續了傳統的圖像檢索的模式:首先,將彩色自然圖片轉換成類似于手繪圖像的邊緣圖(sketch-liked edge map),以期達到跨域檢索的目的;其次,分別從手繪圖像和邊緣圖上提取手工特征(HOG,Shape Context,HELO);緊接著,將這些特征分別輸入到相似度排序器中,作為最后的特征描述子進項相似度的計算。因此,一張手繪圖像與自然圖片之間的相似度,就可以轉化通過計算數據庫中手繪圖像與他們的邊緣圖的特征距離獲得。
然而,手繪草圖與自然圖片之間的巨大的差異性:因為與自然圖片相比,手繪草圖展現出高度抽象的視覺表達,用現有的方法對手繪草圖進行特征提取,其產生的特征描述子對手繪草圖的內容無法進行有效地擬合;對于相同的物體,不同的人群用手繪草圖描述方式和表達也有著巨大的差距,這就使得手繪草圖—自然圖片的匹配更加困難;同時,將手繪草圖與自然圖片映射到相同視覺域的工作也是一項具有困難的任務。所以,手繪草圖檢索技術是大家公認的比較有挑戰性的任務。
因此,有必要設計一個基于手繪圖像和自然圖片的多層視覺表達和深度學習卷積神經網絡的手繪圖像檢索方法,來解決以上問題。
發明內容
本發明的目的在于提出一種基于多層視覺表達和深度網絡的手繪圖像檢索方法,其采用如下方案:
基于多層視覺表達和深度網絡的手繪圖像檢索方法,包括如下步驟:
s1、獲取手繪檢索圖像和數據庫中的自然圖片;
s2、對手繪圖像和自然圖片進行分層處理,得到多層視覺表達;
s3、訓練深度學習卷積神經網絡,學習手繪圖像、自然圖片的多層視覺表達的深度特征;
s4、對學習到的多層深度特征進行融合,獲得最終的特征向量;
s5、對手繪圖像和自然圖片的融合特征進行相似度計算,得到最佳的檢索結果。
2、根據權利要求1所述的基于多層視覺表達和深度網絡的手繪圖像檢索方法,其特征在于,所述步驟s1中,采用的手繪圖像和自然圖片來自于公開數據集Flickr15k,該數據集包含33類共330張由非專業的手繪人員所繪制的手繪圖片,以及14490張彩色自然圖片。
3、根據權利要求2所述的基于多層視覺表達和深度網絡的手繪圖像檢索方法,其特征在于,所述步驟s2進一步包括:
s21、對于手繪圖像中的筆畫strokeoringinal,使用分解規則
將一張手繪圖像分解成3層視覺表達。x1,x2,x3分別代表第1層到第3層視覺表達,strokeoriginal代表的是一幅手繪圖像中的筆畫的總數,desiredlayer代表的是想要的層次,默認設置為3。
s22、對于自然圖片,使用的分解方法:提取出自然圖片的邊緣圖,對于邊緣圖的中的像素使用K-means聚類方法,聚類成3類,這3類像素各自組成3個視覺表達,獲得自然圖片的3種視覺表達。
4、根據權利要求的3所述的基于多層視覺表達和深度網絡的手繪圖像檢索方法,其特征在于,得到手繪圖像和自然圖片的多層視覺表達,它們特征的學習是基于深度學習卷積神經網絡的方法。所述步驟s3進一步包括:
s31、針對手繪圖像和自然圖片的3層視覺表達,分別設計3層融合深度學習神經網絡來訓練數據,每一層的深度學習網絡采用imagenet-very-deep-19網絡框架,其深度是43層。
s32、訓練網絡直至迭代收斂,提取每一層訓練好的深度學習神經網絡的第41層,即fc7層的特征作為手繪圖像或自然圖片每一層視覺表達的特征,每一層視覺表達的特征維度為512維。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711085841.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:金融行情數據的處理方法
- 下一篇:一種多數據源影視數據實體對齊的方法





