[發明專利]一種基于局部共享語義中心的圖像文本跨模態檢索模型、方法及計算機設備在審
| 申請號: | 202210718696.6 | 申請日: | 2022-06-23 |
| 公開(公告)號: | CN114969423A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 孟鈴濤;張飛飛;徐常勝 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/33;G06K9/62;G06N3/04;G06N3/08;G06V10/74;G06V10/762;G06V10/82 |
| 代理公司: | 南京智造力知識產權代理有限公司 32382 | 代理人: | 王軍麗 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 局部 共享 語義 中心 圖像 文本 跨模態 檢索 模型 方法 計算機 設備 | ||
本發明公開了一種基于局部共享語義中心的圖像文本跨模態檢索模型、方法及計算機設備,首先使用預訓練的Faster R?CNN和預訓練的Bert提取圖像中的區域特征與文本的單詞級特征。然后定義一組圖像文本共享的可訓練的語義中心,計算每一個局部特征和語義中心的相似度,根據相似度將局部特征分配到多個語義中心,得到多個語義對齊的圖像表示和文本表示。使用bi?GRU對圖像的區域特征權重和文本的單詞特征權重進行多層級建模,求出整合局部特征的多層全局表示。通過語義對齊的圖像表示和文本表示計算圖像和文本的局部相似度,通過圖像和文本的多層全局表示計算圖像和文本的全局相似度。本發明能夠有效提高圖像文本跨模態檢索的準確率。
技術領域
本發明屬于圖像文本跨模態檢索領域,具體涉及一種基于局部共享語義中心的圖像文本跨模態檢索模型、方法及計算機設備。
背景技術
圖像文本跨模態檢索旨在用一種模態的數據檢索出另一種模態中與該數據具有相同語義的數據,是機器視覺、自然語言處理以及多模態學習等領域涉及的重要研究方向,目前已成為國內外的研究熱點。近年來,隨著深度學習技術的發展,圖像文本跨模態檢索已經取得了優秀的成績。但是該任務仍然面臨著巨大的挑戰,因為不僅僅需要深入理解圖像和文本的語義知識,還需要跨越模態鴻溝,獲取不同模態之間的語義對應關系。
為了解決以上挑戰,目前的方法更加關注圖像文本之間的細粒度對應,通過局部對齊的方法突出重要的語義知識,更加全面的對圖像和文本進行學習。但是目前的方法忽視了局部對齊帶來的沉重計算負擔。因此,在全面理解圖像和文本的同時,減小局部特征的交互規模對圖像文本跨模態檢索是十分重要的。
最近,聚類學習的方法在優化特征共同的語義表示方面取得了很大的成功。然而,目前聚類的特征學習大多將注意力放在了全局表示,因此忽略了細粒度的局部信息,無法很好的應對圖像文本跨模態檢索的挑戰。因此本發明設計了一種圖像文本共享的聚類中心,采用軟分配策略實現圖像和文本之間細粒度的對齊,從而深層次的理解圖像和文本的語義對應關系,提高檢索效率。
發明內容
本發明的目的是利用可訓練的圖像文本共享的語義中心表示圖像文本局部特征的語義共性,通過語義中心實現圖像文本的細粒度對齊,從而挖掘深層次的圖像語義和文本語義,避免了圖像文本局部特征的直接交互從而減小計算規模。并且提出了將全局對齊作為局部對齊的補充,從多角度實現圖像文本的跨模態語義對應,更全面的概括語義信息。實現本發明的技術方案如下:
一種基于局部共享語義中心的圖像文本跨模態檢索模型,該模型通過如下步驟得到:
S1,分別提取圖像的區域特征和文本的單詞級特征,然后經過兩層獨立映射分別得到用于局部對齊和全局對齊的圖像特征和文本特征。
S2,對步驟S1中的圖像特征和文本的特征進行聚類,得到k個初始化的共享語義中心;
S3,計算步驟S1中圖像文本特征和步驟S2中共享語義中心的相似度,利用該相似度將圖像特征聚合為k個對應共享語義中心的圖像語義表示,將文本特征聚合為k個對應共享語義中心的文本語義表示;
S4,對步驟1中圖像的區域特征和文本單詞級特征的池化操作進行建模,得到圖像全局表示和文本全局表示;
S5,利用步驟S3中具有相同共享語義中心的圖像語義表示和文本語義表示計算圖像文本的局部相似度,利用步驟S4中圖像全局表示和文本全局表示計算圖像文本的全局相似度,圖像和文本的整體相似度用局部相似度和全局相似度的加權和來表示,完成建模。
S6,利用整體相似度進行圖像文本跨模態檢索模型的訓練,利用訓練好的模型進行實時的圖像文本跨模態檢索。
作為優選技術方案,所述步驟S1中圖像文本特征提取的具體過程包括:
步驟51-1,使用預訓練的Faster-RCNN提取圖像的區域特征,將提取的區域特征經過兩層獨立的多層感知機,分別映射得到兩組圖像特征和
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210718696.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種告警聚合方法、裝置、電子設備及存儲介質
- 下一篇:一種FPC測試裝置





