[發明專利]一種基于文本描述的行人圖像檢索方法有效
| 申請號: | 202011262275.4 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112364197B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 邵杰;張鵬;歐陽德強;蔣春林 | 申請(專利權)人: | 四川省人工智能研究院(宜賓) |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 644000 四川省宜賓市臨*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 描述 行人 圖像 檢索 方法 | ||
本發明公開了一種基于文本描述的行人圖像檢索方法,包括以下步驟:S1、構建行人圖像檢索模型,對行人圖像檢索模型進行訓練,得到訓練完成的行人圖像檢索模型;S2、采用訓練完成的行人圖像檢索模型計算圖像特征和文本特征之間的余弦相似度值,根據余弦相似度值,得到基于文本描述檢索到的行人圖像。本發明解決了現有技術中基于文本描述的行人圖像檢索任務中行人特征類內差異過大而類內差異過小的問題。
技術領域
本發明涉及跨媒體信息檢索領域,具體涉及一種基于文本描述的行人圖像檢索方法。
背景技術
給定一段以自然語言形式對行人外觀進行描述的查詢文本,基于文本描述的行人圖像檢索旨在從行人圖像數據庫中檢索出最相關的行人圖像。隨著視頻監控的逐步推廣和普及,本任務在預防犯罪、天眼尋人、形跡追蹤等領域有著重要的應用價值。該任務的主要難點在于文本特征和圖像特征屬于不同模態的特征,兩者之間存在著異構語義鴻溝。在應用場景中,我們需要計算文本特征和圖庫中行人圖像特征之間的相似度。然而,直接計算圖像和文本的特征相似度是沒有意義的。因為它們來自兩個完全不同的語義空間,這意味著特征相似度可能與它們的匹配程度無關。為了解決這個問題,許多已提出的算法致力于在共享特征空間中為每個行人學習具有模態不變的和具有區分度的特征。
這些算法大多采用了多分類交叉熵損失函數來學習更具有區分度的圖像與文本聯合嵌入特征。交叉熵損失函數能夠促進模型將同一行人的圖像特征和文本特征分類為同一類別,從而間接提高匹配的圖像文本對的相似度。直觀來看,在共享語義特征空間中同時最大化相同類內部的緊湊性和不同類間的差異將有助于模型學習到更具有區分度的特征。在基于文本描述的行人圖像檢索研究的相關算法中,softmax損失函數被廣泛應用。Softmax損失函數由一個全連接層,一個softmax函數和一個交叉熵損失函數組成。從softmax損失函數的數學表達式可以看出,它并且沒有直接增加類內部的緊致度和類間的差異。由softmax損失函數訓練出來的特征會存在一些問題,例如:類內特征的相似度反而小于類間特征相似度。Softmax損失函數中的完全連接層實際上起著線性分類器的作用,特征所屬類的概率分布取決于該特征與完全連接層中每個類權重向量的內積。值得注意的是,內積的值可以被分解為向量的模和角度余弦的大小。因此,我們可以考慮增大特征與線性分類其中類權重向量的角度間隔來獲得更具有區分度的特征。與人臉識別相比,如何將角度余量納入softmax損失函數中并同時考慮視覺和文本特征的聯合嵌入學習是挑戰所在。
在行人相關任務領域,深度度量學習已得到廣泛應用。在人臉識別和行人再識別等領域中,對比損失(ContrastiveLoss)和三元組損失(Triplet Loss)已顯示出其令人印象深刻的改進模型性能的能力。但是,三元組損失對基于文本描述的行人圖像檢索卻收效甚微。通過審視基于對的度量損失(如對比損失和三元組損失)的數學表達式,我們發現正對或負對的系數相等,這似乎是不合理的。例如,可能存在一些異常的圖像文本對,它們匹配但余弦相似度分數低,或者不匹配但余弦相似度分數高。這些異常對總是提供更多信息和價值。顯然,異常對應該比那些正常對受到更多的關注?;谶@些分析,我們考慮在基于文本描述的行人圖像檢索研究中為異常圖像文本對賦予更大的權重,以此提高模型的學習效率。
已有的算法大都采用全連接層形成的一個線性分類器對特征進行類別分類進而通過多分類交叉熵損失函數來促進模型學習更準確的行人特征。然而,這種直接采用線性分類器計算特征所屬類別概率分布的方法卻存在著明顯的不足。它不能增大類內特征的相似度與此同時增大類間特征的差異,這就導致一個后果:盡管模型能夠做好圖像和文本特征所屬行人類別的分類,但在推理過程中計算文本和數據庫中圖像相似度時卻無法建立匹配度與相似度的正確關系。此外,在基于文本描述的行人圖像檢索任務中,模型主要處理的對象是圖像文本對。這些圖像文本對會存在一些不匹配然而相似度卻較高,或者匹配然而相似度卻較低的情況。這就要求我們對不同的圖像文本對應該賦予不同的關注,對于一些匹配卻相似度較低的圖文對以及不匹配卻具有較高相似度的圖文對,模型應該賦予更多的關注從而提高模型學習的效率。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川省人工智能研究院(宜賓),未經四川省人工智能研究院(宜賓)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011262275.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種非主流鋰礦的焙燒工藝
- 下一篇:一種輔助挖掘機脫離泥沼的設備





