[發(fā)明專利]特征提取與跨模態(tài)匹配檢索方法、裝置、設備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202310373167.1 | 申請日: | 2023-04-10 |
| 公開(公告)號: | CN116628258A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設計)人: | 林凱;沈濤 | 申請(專利權)人: | 深圳市恒揚數(shù)據(jù)股份有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F18/22;G06F40/211;G06F40/289;G06F40/30;G06V20/40;G06N5/04;G06N3/045;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市南山區(qū)西麗街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 提取 跨模態(tài) 匹配 檢索 方法 裝置 設備 介質(zhì) | ||
本發(fā)明涉及到跨模態(tài)匹配檢索領域,具體而言,涉及到一種特征提取與跨模態(tài)匹配檢索方法、裝置、設備及介質(zhì)。本發(fā)明公開了一種特征提取與跨模態(tài)匹配檢索方法,對文本進行主題詞抽取和句法分析,可以準確剖析文本真實的搜索意圖,然后對文本構建語義圖來捕捉全局和局部的文本語義信息,利用注意力機制的圖推理方法來捕捉全局特征和局部特征的交互信息,使得全局和局部信息相互補充,提高文本?視頻檢索的準確率,再采用注意力機制的文本?視頻層次特征進行跨模態(tài)對齊匹配,使得全局信息和局部信息得到充分匹配,從而可以實現(xiàn)文本?視頻檢索中的跨模態(tài)細粒度搜索,可以實現(xiàn)包含數(shù)量、動作、狀態(tài)和場景的細粒度文本來檢索對應的視頻。
技術領域
本發(fā)明涉及到跨模態(tài)匹配檢索領域,具體而言,涉及到一種特征提取與跨模態(tài)匹配檢索方法、裝置、設備及介質(zhì)。
背景技術
跨模態(tài)檢索是指用一種模態(tài)信息全方位獲取該對象其他模態(tài)的信息,同時處理不同模態(tài)的數(shù)據(jù),尋找它們的內(nèi)在關聯(lián)并完成相似性的度量。具體而言是指利用其中一種數(shù)據(jù)模態(tài)作為查詢對象來檢索具有相似語義的另一種數(shù)據(jù)模態(tài)的內(nèi)容,跨模態(tài)檢索技術能有效滿足人們對信息檢索方式多樣化的需要,更為方便的為用戶提供服務。
但是隨著互聯(lián)網(wǎng)和移動終端的快速發(fā)展,文本、圖像和視頻等多模態(tài)數(shù)據(jù)爆炸式增長;而多模態(tài)數(shù)據(jù)的劇增,使得單一模態(tài)的信息檢索無法滿足用戶日益變化的多維度檢索需求。因此,文本、圖像和視頻之間的跨模態(tài)檢索功能顯得越發(fā)重要。當前,以文搜圖或以文搜視頻主要采用關鍵詞文本來匹配圖像(或者視頻)的標簽、標題及簡介等文本字段;其次,對于文本-圖像跨模態(tài)的檢索還有嘗試使用文本-圖像的聯(lián)合視覺語義編碼空間,分別提取文本和圖像在聯(lián)合編碼空間的各自特征向量,并計算向量距離來進行相似度匹配。雖然,以上方法可以實現(xiàn)跨模態(tài)之間的檢索,但是也存在一定的不足:(1)、采用文本關鍵詞和標簽進行匹配,需要為所有圖像和視頻提前人工打上對應的標簽,這樣需要耗費大量的人力和物力;(2)、同時,對于標簽、標題較短或者語義與圖像(視頻)內(nèi)容本身差異較大的情況下,導致檢索精度較差;(3)、對于利用一個聯(lián)合視覺語義編碼空間來度量跨模態(tài)相似性,然而,使用單一全局特征編碼不足以表示復雜的視覺和文本細節(jié),如場景、物體、動作及其組成,導致細粒度的跨模態(tài)檢索精度不高。
發(fā)明內(nèi)容
本發(fā)明的主要目的為提供一種特征提取與跨模態(tài)匹配檢索方法、裝置、設備及介質(zhì),旨在解決針對關鍵詞文本匹配無法準確實現(xiàn)跨模態(tài)檢索、單一跨模態(tài)特征編碼無法較好實現(xiàn)細粒度的檢索的技術問題。
本發(fā)明公開了以下技術方案:
一種特征提取與跨模態(tài)匹配檢索方法,包括:
獲取跨模態(tài)數(shù)據(jù)集,所述數(shù)據(jù)集包括文本數(shù)據(jù)和視頻數(shù)據(jù);
提取所述文本數(shù)據(jù)的文本全局事件特征和文本局部特征,其中,所述文本局部特征包括文本行為特征和文本主體特征;
基于所述文本全局特征和所述文本局部特征,利用注意力的圖推理得到文本全局節(jié)點Ce、文本行為節(jié)點Ca和文本主體節(jié)點Co;
通過不同層次變換矩陣,提取所述視頻數(shù)據(jù)中與所述文本全局事件特征和文本局部特征對應的視頻全局事件特征Ve和視頻局部特征,其中,所述視頻局部特征包括視頻行為特征Va和視頻主體特征Vo;
將所述文本全局節(jié)點Ce和所述視頻數(shù)據(jù)的全局事件特征Ve、所述文本數(shù)據(jù)的局部特征和所述視頻數(shù)據(jù)的局部特征進行對齊匹配,計算每一對跨模態(tài)數(shù)據(jù)之間的相似度;
基于每對跨模態(tài)數(shù)據(jù)之間的相似度構建損失函數(shù),以所述損失函數(shù)取得最小值為目標進行優(yōu)化,對整個文本-視頻檢索模型架構中參數(shù)進行訓練。
進一步地,所述提取所述文本數(shù)據(jù)的文本全局事件特征和文本局部特征,其中,所述文本局部特征包括文本行為特征和文本主體特征的步驟,包括:
基于主題詞提取模型和句法分析工具spaCy提取所述文本數(shù)據(jù)的主要成分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市恒揚數(shù)據(jù)股份有限公司,未經(jīng)深圳市恒揚數(shù)據(jù)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310373167.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于特定模態(tài)語義空間建模的跨模態(tài)相似性學習方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲介質(zhì)
- 基于解糾纏表達學習的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識別方法及裝置
- 跨模態(tài)人臉識別的方法、裝置、設備和存儲介質(zhì)
- 跨模態(tài)檢索模型的訓練方法、裝置、設備和存儲介質(zhì)
- 一種基于多模態(tài)注意力機制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設備及存儲介質(zhì)
- 基于有監(jiān)督對比的跨模態(tài)檢索方法、系統(tǒng)及設備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法





