[發明專利]一種兩級網絡的圖像文本跨媒體檢索方法有效
| 申請號: | 201910355345.1 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110059217B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 李志欣;凌鋒;張燦龍;周韜 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/58;G06F16/33 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 兩級 網絡 圖像 文本 媒體 檢索 方法 | ||
1.一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,包括如下步驟:
步驟1、構建跨媒體兩級模型階段:
所構建的跨媒體兩級模型包括全局生成對抗網絡和局部跨媒體注意網絡;
步驟2、訓練數據集的獲取階段:
步驟2.1、從現有圖像文本跨媒體的數據集中獲取原始圖像和原始文本,并將所獲取原始圖像和原始文本中相互對應的1個原始圖像和1個原始文本形成圖像文本對;
步驟2.2、對每個圖像文本對中的原始圖像和原始文本分別附上不同的模態標簽,由此得到訓練數據集;
步驟3、跨媒體兩級模型進行訓練階段:
步驟3.1、利用圖像文本對跨媒體兩級模型中的全局生成對抗網絡進行訓練;
步驟3.1.1、先將圖像文本對中的原始圖像輸入到全局卷積神經網絡中進行圖像的特征提取訓練,再將所提取到的圖像的特征送入到全局圖像全連接網絡中進行降維訓練,以訓練出該原始圖像的圖像全局表示;
步驟3.1.2、先將圖像文本對中的原始文本輸入到字符型卷積神經網絡中進行文本的特征提取訓練,再將所提取到的文本的特征送入全局長期短期記憶網絡學習其全局代表性,后將學習后的文本的特征送入到全局文本全連接網絡中進行降維訓練,以訓練出該原始文本的文本全局表示;
步驟3.1.3、利用每個圖像文本對中的原始圖像訓練所得的圖像全局表示和原始文本訓練所得的文本全局表示,去訓練全局生成對抗網絡的全局特征相似度;
步驟3.2、利用圖像文本對跨媒體兩級模型中的局部跨媒體注意網絡進行訓練;
步驟3.2.1、先將圖像文本對中的原始圖像輸入快速候選區域卷積神經網絡中進行圖像候選區域提取訓練,再將所提取到的圖像候選區域送入到局部卷積神經網絡中進行圖像候選區域的特征提取訓練,后將所提取到的圖像候選區域的特征送入到局部圖像全連接網絡中進行降維訓練,以訓練出該原始圖像的圖像局部表示;
步驟3.2.2、先將圖像文本對中的原始文本輸入到詞嵌入矩陣進行單詞提取訓練,再將所提取到的單詞向量送入文本雙向長期短期記憶網絡總結出所提取單詞向量的語義信息,以生成不同的文本片段,并對生成的文本片段進行注意機制訓練來捕獲其中有用的文本片段,后將有用的文本片段送入到局部文本全連接網絡中進行降維訓練,以訓練出該原始文本的文本局部表示;
步驟3.2.3、利用每個圖像文本對中的原始圖像訓練所得的圖像局部表示和原始文本訓練所得的文本局部表示,去訓練局部跨媒體注意網絡的局部特征相似度;
步驟3.3、利用步驟3.1訓練所得全局生成對抗網絡的全局特征相似度和步驟3.2訓練所得訓練局部跨媒體注意網絡的局部特征相似度,去訓練跨媒體兩級模型的綜合相似度;
步驟3.4、利用步驟2所得到的訓練數據集中的所有圖像文本對對步驟1所構建的跨媒體兩級模型進行重復步驟3.1-3.3的訓練過程,以確定跨媒體兩級模型中的網絡參數,由此得到訓練好的跨媒體兩級模型;
步驟4、檢索階段:
將待檢索圖像和待檢索文本同時輸入到步驟3所訓練好的跨媒體兩級模型中,通過訓練好的跨媒體兩級模型輸出待檢索圖像和待檢索文本之間的綜合相似度,從而確定該待檢索圖像和待檢索文本是否相似。
2.根據權利要求1所述的一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,步驟2.1所述的圖像文本跨媒體的數據集為Flickr30K和MS-COCO。
3.根據權利要求1所述的一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,步驟2.2中,對于每個圖像文本對,將其原始圖像的模態標簽記做01,并將其原始文本的模態標簽記做10。
4.根據權利要求1所述的一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,步驟3.1.3中,全局生成對抗網絡的全局特征相似度等于圖像全局表示與文本全局表示之間的點積。
5.根據權利要求1所述的一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,步驟3.2.3中,局部跨媒體注意網絡的局部特征相似度等于圖像局部表示與文本局部表示之間的點積。
6.根據權利要求1所述的一種兩級網絡的圖像文本跨媒體檢索方法,其特征是,步驟3.4中,綜合相似度等于全局特征相似度和局部特征相似度之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910355345.1/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





