[發明專利]一種基于多層語義對齊的跨模態檢索方法有效
| 申請號: | 202110374768.5 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN112966127B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 王海榮;杜錦豐 | 申請(專利權)人: | 北方民族大學 |
| 主分類號: | G06F16/43 | 分類號: | G06F16/43 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 750021 寧夏回族*** | 國省代碼: | 寧夏;64 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層 語義 對齊 跨模態 檢索 方法 | ||
1.一種基于多層語義對齊的跨模態檢索方法,其特征在于,包括以下步驟:
步驟1:獲取不同模態的數據:文本、圖像和視頻;
步驟2:對收集到的不同模態數據進行特征提取,將提取出的相應的文本、圖像和視頻特征向量,映射到公共空間,且其具體操作步驟為:
S21:將收集到的N對圖像、文本、視頻的跨模態數據表示為
S22:提取圖像特征:將每幅圖像i輸入到Faster R-CNN,提取圖像區域特征,得到一組圖像i的特征向量其中li表示每個候選圖像區域,n為候選區域個數,其計算公式為:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是轉換矩陣,bv是偏置系數;
S23:提取文本特征:對于文本句子T,通過Bi-GRU網絡學習文本上下文特征,將得到的文本語義特征通過one-hot編碼,獲得每一個詞的詞向量表示,并通過編碼矩陣將詞向量嵌入到公共空間,得到文本的語義向量特征表示,其計算公式為:
其中,ej表示單詞向量,Wt為Bi-GRU單元參數;
S24:提取視頻特征:對于一個視頻語義信息VT,利用Bi-GRU網絡提取視頻中的文本語義信息,利用文本語義特征代替視頻提取單詞特征,將得到文本語義特征通過one-hot編碼,獲得每一個詞的詞向量表示,并通過編碼矩陣將單詞嵌入到公共空間,得到視頻V的語義向量特征表示;
步驟3:將得到的文本、圖像和視頻特征利用自注意力機制為特征向量分配自注意力權重,并根據注意力權重大小自適應地過濾掉無關或關聯性較小的區域;
步驟4:利用自注意力機制加權后的特征向量實現不同模態間的實體對齊、關系對齊,且步驟S4的具體步驟包括:
S41:對于圖像片段根據與該圖像區域語義相似性,計算每個單詞的注意力權重注意力權重的計算公式為:
其中表示圖像區域和詞向量tq語義相似性;
S42:將圖像關系表示為p,q={1,...,n},其表示第p和q個區域關系,對于每個圖像關系ri,根據與該圖像區域語義相似性,計算每個單詞的注意力權重
其中表示圖像區域和單詞tq的語義相似性;
S43:根據S41和S42得到的注意力權重計算實體和關系對齊,其具體步驟為:
S431:基于句子間的連詞和語法規則,判斷兩個句子間的遞進、轉折和總結三類關系;
S432:將句子間的三類關系作為先驗知識,引入注意力網絡,得到基于句法關系約束的句子層注意力機制,其計算公式為:
其中,N是文本數量,w是情感分類模型,xi是第i個文本的向量表示,yi是第i個文本的情感極性,βi,βj分別是句子層的注意力系數,Bij是句子i和句子j的相似度,λ1,λ3是超參數;
S433:將每個句子的句向量輸入到基于句法關系約束的且具有注意力機制的BiLSTM網絡,最終得到文檔的向量表示;
步驟5:利用文本的全局加權特征實現多標簽預測,實現全局語義對齊;
步驟6:分別計算關系相似度、實體相似度和全局語義相似度;
步驟7:根據得到的關系相似度、實體相似度和全局語義相似度來計算圖像和文本整體相似度,并根據整體相似度進行排序,選擇排名前n個候選集實例作為最終的查詢結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方民族大學,未經北方民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110374768.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多角度適應型辦公座椅靠背
- 下一篇:一種高密封性的翻蓋式外部接口封裝結構





