[發(fā)明專(zhuān)利]基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710478207.3 | 申請(qǐng)日: | 2017-06-21 |
| 公開(kāi)(公告)號(hào): | CN107273517B | 公開(kāi)(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 顧曉東;張有才 | 申請(qǐng)(專(zhuān)利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類(lèi)號(hào): | G06F16/953 | 分類(lèi)號(hào): | G06F16/953;G06F16/43 |
| 代理公司: | 上海正旦專(zhuān)利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 嵌入 學(xué)習(xí) 圖文 跨模態(tài) 檢索 方法 | ||
1.一種基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,其特征在于,分為如下三個(gè)步驟:
(1)收集圖片、文本數(shù)據(jù)樣本,建立圖文跨模態(tài)檢索數(shù)據(jù)庫(kù),并分為訓(xùn)練集與測(cè)試集,提取所述數(shù)據(jù)庫(kù)的特征,建立圖片、文本特征庫(kù),根據(jù)特征信息建立圖文近鄰圖;
(2)通過(guò)圖片、文本訓(xùn)練集的標(biāo)簽信息及圖文近鄰圖的結(jié)構(gòu)訓(xùn)練學(xué)習(xí)得到嵌入層,該嵌入層作為可直接計(jì)算不同模態(tài)數(shù)據(jù)相似度的統(tǒng)一空間;
(3)對(duì)于查詢(xún)集中的一個(gè)圖片/文本數(shù)據(jù),在嵌入層中計(jì)算相似度,根據(jù)多媒體數(shù)據(jù)之間的相似度,檢索得到與它最為相似的文本/圖片數(shù)據(jù),從而達(dá)到圖文跨模態(tài)檢索效果;
步驟(2)的操作流程如下:
(a)對(duì)于每個(gè)數(shù)據(jù)xi計(jì)算一個(gè)嵌入層該過(guò)程通過(guò)一層神經(jīng)網(wǎng)絡(luò)隱藏節(jié)點(diǎn)實(shí)現(xiàn);
(b)在訓(xùn)練集上,對(duì)嵌入層通過(guò)邏輯回歸做分類(lèi),采用類(lèi)別交叉熵:
作為損失函數(shù),其中:
Ns為訓(xùn)練分類(lèi)的批量大小,C為類(lèi)別個(gè)數(shù),yi為表征樣本類(lèi)別的獨(dú)熱碼,W為全連接層的權(quán)重,b為常數(shù)項(xiàng);通過(guò)最小化該損失函數(shù),訓(xùn)練得到嵌入層;
(c)在圖文雙層的近鄰圖上,通過(guò){xi,xj,γ}采樣得到三元組,通過(guò)余弦距離:
計(jì)算兩個(gè)節(jié)點(diǎn)在嵌入層上的相似度,通過(guò)最小化邏輯回歸損失函數(shù):
其中,Ng為訓(xùn)練圖文雙層近鄰圖的批量大小,γ為歸一化參數(shù);進(jìn)一步訓(xùn)練學(xué)習(xí)得到的嵌入層;
(d)最終優(yōu)化的目標(biāo)函數(shù)為上述兩項(xiàng)加權(quán)和,即:L=Ls+λLu,λ為權(quán)重,用以調(diào)節(jié)訓(xùn)練集、圖文雙層的近鄰圖損失函數(shù)的相對(duì)比例;通過(guò)自適應(yīng)學(xué)習(xí)率的梯度下降方法,得到最終的嵌入層。
2.根據(jù)權(quán)利要求1所述的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,其特征在于,步驟(1)的操作流程如下:
(1)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)方式爬取維基百科,F(xiàn)lickr,Instagram,Facebook等主流網(wǎng)站的圖文數(shù)據(jù),選取其中一一對(duì)應(yīng)的圖文描述,構(gòu)建圖文跨模態(tài)檢索數(shù)據(jù)庫(kù);
(2)根據(jù)實(shí)際需要將所述數(shù)據(jù)庫(kù)分為訓(xùn)練集和測(cè)試集;
(3)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖片的特征,通過(guò)隱含狄利克雷分布提取文本的特征,每個(gè)數(shù)據(jù)得到dp維的向量其中圖片維度為4096,文本維度為10;
(4)分別在圖片、文本兩個(gè)模態(tài)內(nèi)建立兩個(gè)單層近鄰圖,節(jié)點(diǎn)之間權(quán)值計(jì)算公式為:
其中,表示樣本的前k個(gè)最近鄰;
兩層近鄰圖通過(guò)以下權(quán)值進(jìn)行連接,即圖片與文本描述同一內(nèi)容,權(quán)值為1,具體公式為:
這樣就得到了圖文雙層的近鄰圖。
3.根據(jù)權(quán)利要求1所述的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,其特征在于,步驟(3)的操作流程如下:
將測(cè)試集中的數(shù)據(jù)作為查詢(xún)數(shù)據(jù),在嵌入層中計(jì)算查詢(xún)數(shù)據(jù)與測(cè)試集中不同模態(tài)數(shù)據(jù)的余弦距離,距離越近就說(shuō)明這兩個(gè)數(shù)據(jù)越相似;根據(jù)多媒體數(shù)據(jù)之間的相似度,得到所述目標(biāo)集中與它最為相似的多媒體數(shù)據(jù),從而得到跨模態(tài)檢索效果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710478207.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線(xiàn)上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





