[發明專利]一種基于無標記數據遷移的跨模態檢索方法及系統有效
| 申請號: | 201910707010.1 | 申請日: | 2019-08-01 |
| 公開(公告)號: | CN110647904B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 朱福慶;王雪如;張衛博;戴嬌;虎嵩林;韓冀中 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/903 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 陳艷 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標記 數據 遷移 跨模態 檢索 方法 系統 | ||
1.一種基于無標記數據遷移的跨模態檢索方法,所述遷移包括單模態知識遷移和跨模態知識共享,包括以下步驟:
將待檢索樣本輸入訓練完成的跨模態數據檢索模型,得到其特征表示;
對于每個待檢索的樣本,計算其與所有其他模態樣本的歐氏距離,再進行排序,距離小于指定閾值的其他模態樣本即為檢索結果;
其中,所述跨模態數據檢索模型的訓練過程如下:
(1)收集無標記圖像與無標記文本;
(2)使用預訓練的VGG網絡提取每個圖像的特征向量,并根據所述無標記圖像的數據量,確定圖像聚類中心數目,選取與圖像聚類中心數目相同數量的無標記圖像作為最初的聚類中心,其中,所述確定圖像聚類中心數目,包括:
根據無標記圖像的數據量大小,設置圖像聚類中心數目的初始值范圍,并對每一個初始值進行聚類且記錄誤差平方和;
畫出圖像聚類中心數目和誤差平方和的關系圖,并基于所述關系圖中的斜率變化,得到圖像聚類中心數目;其中,隨著簇個數的增加,樣本劃分更加精細,每個簇的聚合程度會逐漸提高,誤差平方和會逐漸變小;當圖像聚類中心數目小于最佳聚類數時,圖像聚類中心數目的增大會增加每個簇的聚合程度,所述誤差平方和的下降幅度很大;而當圖像聚類中心數目到達最佳聚類數時,再增加圖像聚類中心數目的情況下,誤差平方和的下降幅度會驟減,且隨著圖像聚類中心數目的繼續增大,斜率趨于平緩;
(3)遍歷所有無標記圖像,將每個無標記圖像分配到距離最近的聚類中心,更新每個聚類的均值作為新的聚類中心,迭代多次,直到每個簇不再變化或達到最大迭代次數;
(4)將同一個簇的所有無標記圖像歸為一類并設置為相同的標簽,從而得到帶有偽標簽的無標簽圖像;
(5)使用Bert提取每個無標記文本的特征,并對所述特征進行無監督聚類,從而得到帶有偽標簽的無標簽文件;
(6)將帶有偽標簽的無標簽圖像、文本所含知識分別遷移至跨模態數據集的圖像、文本部分,生成跨模態數據集圖像和文本的單獨表達;其中,損失函數Losstransfer=Lossimg+Losstxt+Losscross-modal;
圖像模態的知識遷移損失表示由f()將數據映射到再生希爾伯特空間中進行度量的距離;Xi為圖像目標域的分布,Yi為圖像源域的分布,k為聚類中心數目,m為源域數據的樣本數量,n為目標域數據的樣本數量;
所述圖像模態的知識遷移實現方法包括:首先,將源域和目標域的圖像傳入網絡,經過AlexNet網絡的前五個卷積層,再加入三個全連接層,源域的損失函數為SoftMax損失;通過最小化源域和目標域的損失函數MMD,從而實現圖像模態的知識遷移;
文本模態的知識遷移損失Xt為文本目標域的分布,Yt為文本源域的分布;
所述文本模態的知識遷移實現方法包括:使用Bert分別提取源域和目標域的文本特征向量,再經過三個全連接層,源域的損失函數為SoftMax損失,遷移的損失函數為MMD損失;
跨模態知識的損失函數l6,l7指跨模態數據集圖像文本相連的兩個全連接層,nl指傳入的圖像和文本的對數,為第p個圖像文本對,使用g()將圖像和文本映射為特征向量;
(7)將圖像和文本的單獨表達傳入同一個網絡,學習圖像和文本在同一語義空間下的共同表達。
2.如權利要求1所述一種基于無標記數據遷移的跨模態檢索方法,其特征在于,共同空間學習損失函數Losscommon為:
其中,fs為SoftMax損失函數,為輸入的第p個相關的圖像文本對,lp為該圖像文本對的類別標簽,n為圖像文本對的個數。
3.如權利要求1所述一種基于無標記數據遷移的跨模態檢索方法,其特征在于,閾值的確定方法包括:訓練過程中跨模態知識的損失函數Losscross-modeal損失的值為成對圖像文本的距離,根據Losscross-modal損失值設置10-20個初始閾值,計算在每個閾值下,檢索的mAP值,使得mAP值最大的閾值為檢索的閾值。
4.一種基于無標記數據遷移的跨模態檢索系統,所述遷移包括單模態知識遷移和跨模態知識共享,包括:無標記數據聚類模塊,數據遷移模塊和共同空間學習模塊;
無標記數據聚類模塊,用于通過無標記數據聚類模塊構造遷移數據集,將該數據集作為數據遷移模塊的遷移源域,包括:
收集無標記圖像與無標記文本;
使用預訓練的VGG網絡提取每個圖像的特征向量,并根據所述無標記圖像的數據量,確定圖像聚類中心數目,選取與圖像聚類中心數目相同數量的無標記圖像作為最初的聚類中心;其中,所述確定圖像聚類中心數目,包括:
根據無標記圖像的數據量大小,設置圖像聚類中心數目的初始值范圍,并對每一個初始值進行聚類且記錄誤差平方和;
畫出圖像聚類中心數目和誤差平方和的關系圖,并基于所述關系圖中的斜率變化,得到圖像聚類中心數目;其中,隨著簇個數的增加,樣本劃分更加精細,每個簇的聚合程度會逐漸提高,誤差平方和會逐漸變小;當圖像聚類中心數目小于最佳聚類數時,圖像聚類中心數目的增大會增加每個簇的聚合程度,所述誤差平方和的下降幅度很大;而當圖像聚類中心數目到達最佳聚類數時,再增加圖像聚類中心數目的情況下,誤差平方和的下降幅度會驟減,且隨著圖像聚類中心數目的繼續增大,斜率趨于平緩;
遍歷所有無標記圖像,將每個無標記圖像分配到距離最近的聚類中心,更新每個聚類的均值作為新的聚類中心,迭代多次,直到每個簇不再變化或達到最大迭代次數;
將同一個簇的所有無標記圖像歸為一類并設置為相同的標簽,從而得到帶有偽標簽的無標簽圖像;
提取每個無標記文本的特征,并對所述特征進行無監督聚類,從而得到帶有偽標簽的無標簽文件;
數據遷移模塊,用于通過共同空間學習模塊為數據遷移模塊得到的圖像、文本學習統一表達,建立跨模態數據的相似性度量基礎,從而實現跨模態檢索,其中,所述數據遷移模塊的損失函數Losstransfer=Lossimg+Losstxt+Losscross-modal;
圖像模態的知識遷移損失表示由f()將數據映射到再生希爾伯特空間中進行度量的距離;Xi為圖像目標域的分布,Yi為圖像源域的分布,k為聚類中心數目,m為源域數據的樣本數量,n為目標域數據的樣本數量;
所述圖像模態的知識遷移實現方法包括:首先,將源域和目標域的圖像傳入網絡,經過AlexNet網絡的前五個卷積層,再加入三個全連接層,源域的損失函數為SoftMax損失;通過最小化源域和目標域的損失函數MMD,從而實現圖像模態的知識遷移;
文本模態的知識遷移損失Xt為文本目標域的分布,Yt為文本源域的分布;
所述文本模態的知識遷移實現方法包括:使用Bert分別提取源域和目標域的文本特征向量,再經過三個全連接層,源域的損失函數為SoftMax損失,遷移的損失函數為MMD損失;
跨模態知識的損失函數l6,l7指跨模態數據集圖像文本相連的兩個全連接層,nl指傳入的圖像和文本的對數,為第p個圖像文本對,使用g()將圖像和文本映射為特征向量;
共同空間學習模塊,用于將圖像和文本的單獨表達傳入同一個網絡,學習圖像和文本在同一語義空間下的共同表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910707010.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種短視頻分類方法
- 下一篇:一種基于偽腦網絡模型下的涉恐場景識別方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





