[發明專利]一種基于層次化相似性學習的文本到商品圖像的檢索方法有效
| 申請號: | 202110185623.0 | 申請日: | 2021-02-10 |
| 公開(公告)號: | CN112860930B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 紀守領;馬哲;劉豐豪;張旭鴻;董建鋒;何源 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/583;G06V10/40;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層次 相似性 學習 文本 商品 圖像 檢索 方法 | ||
本發明公開了一種基于層次化相似性學習的文本到商品圖像的檢索方法,該方法通過預訓練的目標檢測模型和利用獨熱編碼以及預訓練的Word2Vec獲取圖像和文本的初步特征,再通過兩個層次化編碼網絡分別對兩種模態進行層次化編碼。通過全連接層將特征映射到一個統一公共空間中,進行兩種不同粒度的相似性度量,分別是物體粒度的相似性和圖像粒度的相似性,最后利用公共空間算法學習兩個模態之間的關系,通過端到端的方式訓練模型,自動學習文本和圖像的匹配關系,從而實現文本到圖像的跨模態檢索。本發明針對復雜的商品圖像,應用多層次的特征以及多粒度的相似性來進行跨模態檢索,具有優越的性能優勢,并且利用深度學習技術,極大提高了檢索的性能和效率。
技術領域
本發明涉及圖像跨模態檢索技術領域,尤其涉及一種基于層次化相似性學習的文本到商品圖像的檢索方法。
背景技術
近年來,隨著互聯網和移動智能設備的迅速普及以及通信和多媒體技術的迅速發展,電子商務平臺應運而生,市場規模和用戶需求在持續快速地增長。其中各種模態的商品數據,如文字、圖像等也在迅速增長,如何從中快速且準確地找出用戶需要的商品是一個艱巨的挑戰。傳統基于關鍵詞的商品檢索方式,已經不能完全滿足用戶的需求,且在持續增長的數據規模下難以擴展。在這樣的背景下,基于內容的文本到商品圖像的跨模態檢索就是緩解這個挑戰的關鍵技術之一。
現有的文本到圖像的跨模態檢索一般包含兩類。一類是傳統的跨模態檢索方法,這一類方法通過計算文本和圖像的跨模態相關度返回與查詢相關度較高的圖像,核心是計算文本和圖像的跨模態相關度;另一類方法是針對商品圖像檢索的模型,它們的模型結構更加先進。這兩類方法都建立在單層次的特征表示和單粒度的相關度度量上,難以有效地解決商品圖像檢索的問題。這是因為商品圖像相比于傳統的圖像領域更加的復雜多樣,比如它包含眾多的商品品類,往往具有復雜的背景,圖像內的目標易變形等。在這種情況下,單層次的特征表示,單粒度的跨模態相關性度量難以應對商品圖像檢索的復雜性。
本發明基于深度神經網絡對文本和商品圖像進行向量化編碼,在此基礎上進行公共度量空間的學習。在公共度量空間中,語義匹配的文本和圖像在定義的相似度度量函數下會獲得更高的打分。相關性分數可以用來對候選樣本進行排序,以實現檢索的效果。
發明內容
針對現有方法技術的不足,本發明提出了一種基于層次化相似性學習的文本到商品圖像的檢索方法,提出了層次化相似性學習網絡,首次使用具有相似架構的多層編碼網絡同時對句子和圖像進行量化編碼和表示學習,使用多粒度的相似性度量方式計算文本和圖像間的相似度,實現文本到圖像的跨模態檢索。
一種基于層次化相似性學習的文本到商品圖像的檢索方法,包括以下步驟:
該方法為:將輸入的文本查詢和候選圖像通過檢索網絡進行編碼,并計算各個層次不同粒度下的相似度,以一定的權重聚合上述各種相似度,根據相似度對候選圖像進行排序,并返回檢索結果。其中,檢索網絡包括特征提取模塊、兩個層次化編碼網絡;所述檢索網絡通過如下方法構建并訓練:
(1)利用特征提取模塊對圖像和文本進行特征提取,得到圖像和文本兩種模態數據的初始特征;其中,所述圖像的初始特征為圖像中提取的物體特征的集合,所述文本特征為文本中單詞特征的集合。
(2)以并行的方式,利用層次化編碼網絡對在步驟(1)中得到的圖像和文本的初始特征分別進行層次化編碼,獲得具有更強表示能力的多層次圖像特征和多層次文本特征。
(3)將步驟(2)中得到的多層次圖像特征和多層次文本特征映射到物體粒度的公共空間中,得到各種層次的物體粒度的相似度,所述物體粒度的相似度為圖像中所有物體特征與文本特征均值相關度的平均值。
(4)將步驟(2)中得到的多層次圖像特征和多層次文本特征映映射到圖像粒度的公共空間中,得到各種層次的圖像粒度的相似度,所述圖像粒度的相似度為圖像中所有物體聚合后的全局圖像特征與文本特征均值的相關度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110185623.0/2.html,轉載請聲明來源鉆瓜專利網。





