[發(fā)明專利]基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法在審
| 申請?zhí)枺?/td> | 202010526211.4 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111782833A | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計)人: | 王瓊;柏潔咪;姚亞洲;唐振民 | 申請(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號: | G06F16/483 | 分類號: | G06F16/483;G06K9/62;G06N3/04;G06N3/08;G06F40/284;G06F17/14 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 網(wǎng)絡(luò) 細粒度 媒體 檢索 方法 | ||
1.一種基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,具體步驟為:
步驟1、獲取跨媒體數(shù)據(jù)集,對跨媒體數(shù)據(jù)集進行預(yù)處理獲取跨媒體數(shù)據(jù);
步驟2、分別提取各媒體數(shù)據(jù)的專有特征;
步驟3、提取各媒體數(shù)據(jù)的公共特征;
步驟4、對跨媒體數(shù)據(jù)的專有特征和公共特征進行加權(quán)求和,獲取最終的聯(lián)合特征;
步驟5、利用余弦距離測量不同媒體特征之間的相似度并按相似度對媒體特征進行排序。
2.根據(jù)權(quán)利要求1所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,所述跨媒體數(shù)據(jù)包括圖像、視頻、文本和音頻數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,步驟2中分別提取各媒體數(shù)據(jù)的專有特征的具體方法為:
采用基于雙線性CNN的特征提取器提取圖像和視頻數(shù)據(jù)特征;
采用word2vec模型對詞向量進行預(yù)訓(xùn)練,采用基于注意力的雙向長短期網(wǎng)絡(luò)的特征提取器提取文本數(shù)據(jù)特征;
采用基于VGG的特征提取器提取音頻數(shù)據(jù)特征。
4.根據(jù)權(quán)利要求3所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,采用基于雙線性CNN的特征提取器提取圖像和視頻數(shù)據(jù)特征的具體過程為:
圖像或者視頻數(shù)據(jù)分別經(jīng)過兩個CNN網(wǎng)絡(luò)得到不同的特征,并通過雙線性運算,以得到雙線性特征b(l,i),具體公式為:
b(l,i)=Ea(l,i)TEb(l,i)
式中,Ea、Eb分別為兩個CNN網(wǎng)絡(luò)的特征提取函數(shù);
通過池化函數(shù)將所有位置L的雙線性特征匯聚成一個特征,其中,池化函數(shù)具體為:
P(i)=Σl∈Lb(l,i)
匯聚成的特征經(jīng)過全連接層得到最終的圖像和視頻特征。
5.根據(jù)權(quán)利要求3所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,基于注意力的雙向長短期網(wǎng)絡(luò)的特征提取器提取文本數(shù)據(jù)特征的具體過程為:
通過輸入層接收輸入句子T=[t1,t2,…,tn],其中ti是句子中的第i個單詞,n為句子的長度;
通過嵌入層中預(yù)訓(xùn)練詞向量W矩陣,將句子中的每個單詞ti轉(zhuǎn)化為特定的詞向量ei;
通過雙向LSTM網(wǎng)絡(luò)獲得更深層次的特征表示,第i個單詞的輸出具體為:
輸出向量集用H表示,H=[h1,h2,…,hn];
通過注意力層分配較大權(quán)值,獲得H的權(quán)重矩陣γ,權(quán)重矩陣γ表示為:
γ=softmax(wT tanh(H))
w是訓(xùn)練學(xué)習(xí)得到的參數(shù)向量;
將LSTM層的輸出向量集H和注意力層獲得的權(quán)重矩陣γ相乘獲得句子的特征表示f,即:
f=HγT
經(jīng)過softmax分類器得到最終的文本特征表示fpro。
6.根據(jù)權(quán)利要求1所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,提取各媒體數(shù)據(jù)的公共特征的具體方法為:
構(gòu)建基于FGCrossNet的公共網(wǎng)絡(luò);
將四種媒體數(shù)據(jù)同時經(jīng)過卷積層、池化層和全連接層,并通過損失函數(shù)一次性學(xué)習(xí)四種媒體的公共特征。
7.根據(jù)權(quán)利要求6所述的基于多模型網(wǎng)絡(luò)的細粒度跨媒體檢索方法,其特征在于,所述損失函數(shù)包括:
交叉熵損失函數(shù),具體為:
式中,I、T、V、A分別表示圖像、文本、視頻和音頻數(shù)據(jù),l為單個媒體中所有樣本的交叉熵損失函數(shù);
中心損失函數(shù),具體為:
其中,xj是第j個樣本的特征,為第j個樣本所屬類別的中心的特征;
四元組損失函數(shù),具體為:
其中xa,xp,xm1,xm2屬于四種媒體類型,xa,xp屬于相同的類別,xm1,xm2屬于不同的類別;d()表示L2距離,α1,α2是設(shè)置的超參數(shù);
分布損失函數(shù),具體為:
式中,c代表某一類別,C代表類別總和,表示兩個分布的距離。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010526211.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種管理和傳送細粒度業(yè)務(wù)的方法
- 基于CPU硬件性能監(jiān)控計數(shù)器的CPI精確測量方法
- 一種基于改進YOLOv3的細粒度圖像分類方法
- 細粒度對象流量分析方法和裝置
- 一種基于點云數(shù)據(jù)建模的方法、裝置和電子設(shè)備
- 細粒度圖像分類方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 基于圖像卷積特征的復(fù)雜背景下害蟲細粒度圖像識別方法
- 一種細粒度分類模型的優(yōu)化方法、系統(tǒng)及相關(guān)裝置
- 一種結(jié)合注意力混合裁剪的細粒度圖像識別方法
- 基于分級式結(jié)構(gòu)的細粒度視頻動作識別方法





