[發(fā)明專利]基于深度關(guān)聯(lián)網(wǎng)絡(luò)的跨模態(tài)檢索方法在審
| 申請?zhí)枺?/td> | 201710989497.8 | 申請日: | 2017-10-21 |
| 公開(公告)號: | CN107832351A | 公開(公告)日: | 2018-03-23 |
| 發(fā)明(設(shè)計(jì))人: | 蔡國永;馮耀功 | 申請(專利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04 |
| 代理公司: | 桂林市華杰專利商標(biāo)事務(wù)所有限責(zé)任公司45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 關(guān)聯(lián) 網(wǎng)絡(luò) 跨模態(tài) 檢索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及多媒體數(shù)據(jù)檢索的技術(shù),特別是基于深度關(guān)聯(lián)網(wǎng)絡(luò)的跨模態(tài)檢索方法。
背景技術(shù)
多媒體信息爆發(fā)式增長的時(shí)代,人們更傾向于多元化的檢索結(jié)果,而不僅僅是單一模態(tài)的檢索。例如,看到一張風(fēng)景畫,如果向檢索系統(tǒng)提交這幅圖片,檢索系統(tǒng)不僅檢索出類似的風(fēng)景畫,還能同時(shí)檢索出與這幅圖片有關(guān)的音頻或文字等信息,這會使得檢索效果會更有影響力。這種使用某一模態(tài)的數(shù)據(jù)檢索其它模態(tài)數(shù)據(jù)的過程,稱為跨模態(tài)的檢索。
傳統(tǒng)的跨模態(tài)檢索,例如文本檢索圖像,往往依據(jù)的還是圖像的文本標(biāo)注信息與檢索文本的匹配,因此其本質(zhì)上還是一種單模態(tài)的檢索。然而,信息的爆發(fā)式增長使得人工標(biāo)注成本太高,同時(shí)圖像本身含有的豐富信息也難以用有限的標(biāo)簽表示出來;此外,由于標(biāo)注人員的認(rèn)知差異往往又會導(dǎo)致標(biāo)簽質(zhì)量參差不齊。所有這些方面都會在很大程度上影響到檢索結(jié)果的精確性。深度學(xué)習(xí)在處理語音、文本以及圖像方面的巨大成功,為人們從深度語義角度,探索新的無監(jiān)督的跨模態(tài)檢索帶來了希望。
基于深度學(xué)習(xí)的算法可以分為兩類:1)第一類方法將建模的過程分為兩個(gè)階段,第一個(gè)階段分別將各自模態(tài)的數(shù)據(jù)進(jìn)行抽象化的表示,第二個(gè)階段將第一階段抽象化的結(jié)果映射到一個(gè)共享的表示空間,以建立多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián);但是此類方法割裂了表示學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí)之間的聯(lián)系,使得無法判斷數(shù)據(jù)抽象到何種程度最適合跨模態(tài)的檢索任務(wù),并且其共享層既包含不同模態(tài)數(shù)據(jù)的共有信息,也包含單模態(tài)數(shù)據(jù)的特有信息,不利于跨模態(tài)檢索的進(jìn)行。2)第二類方法將關(guān)聯(lián)學(xué)習(xí)融入到了表示學(xué)習(xí)的過程中,使其形成一個(gè)有機(jī)的整體。雖然第二類方法在實(shí)踐過程中被證明更加適合跨模態(tài)檢索的任務(wù);但是現(xiàn)存的第二類算法仍存在檢索效果不穩(wěn)定,或是構(gòu)成深度網(wǎng)絡(luò)的組件種類過于單一導(dǎo)致檢索精確度不高的問題。
發(fā)明內(nèi)容
本發(fā)明針對跨模態(tài)的檢索問題,提出了基于深度關(guān)聯(lián)網(wǎng)絡(luò)(Deep Correlated Networks,DCN)的跨模態(tài)檢索方法,在不同模態(tài)的數(shù)據(jù)之間建立了多層次的對應(yīng)關(guān)聯(lián)關(guān)系,同時(shí)融合了多種神經(jīng)網(wǎng)絡(luò),使得深度模型具有更好的表示效果,并且跨模態(tài)檢索的精確度更高、穩(wěn)定性更好。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是:
基于深度關(guān)聯(lián)網(wǎng)絡(luò)的跨模態(tài)檢索方法,包括如下步驟:
1)利用初始特征提取方法分別獲得第一模態(tài)數(shù)據(jù)的初級向量和第二模態(tài)數(shù)據(jù)的初級向量;
2)建立和訓(xùn)練DCN模型,分別將檢索目標(biāo)和檢索庫成員通過DCN模型獲得相對應(yīng)的高級表示向量;
3)利用高級表示向量對檢索目標(biāo)和檢索庫中每一個(gè)檢索成員進(jìn)行相似度匹配,即進(jìn)行歐式距離的計(jì)算;
4)將歐氏距離的計(jì)算結(jié)果按從小到大的順利排列,從而得到檢索目標(biāo)的跨模態(tài)檢索的結(jié)果列表。
步驟1)中所述的初級向量包括如下步驟:
(1)設(shè)置圖像模態(tài)數(shù)據(jù)為第一模態(tài)數(shù)據(jù)時(shí),文本模態(tài)數(shù)據(jù)就是第二模態(tài)數(shù)據(jù),反之亦然;
(2)針對不同模態(tài)的原始數(shù)據(jù)采用不同的初始特征提取方法;圖像模態(tài)的數(shù)據(jù)可以通過PHOW、Gist、MPEG-7等方法進(jìn)行原始特征的提取,然后進(jìn)行特征的拼接形成初級向量;文本模態(tài)的數(shù)據(jù)則可以通過詞袋模型的方法進(jìn)行原始特征的提取,形成初級向量。
步驟2)中所述的獲得相對應(yīng)的高級表示向量包括如下步驟:
(1)使用訓(xùn)練集數(shù)據(jù)對DCN模型進(jìn)行訓(xùn)練,得到DCN模型的各項(xiàng)參數(shù),具體步驟如下:
①訓(xùn)練DCN模型的第一部分,即對應(yīng)受限玻爾茲曼機(jī)模型(Correspondence restrict Boltzmann machine,Corr-RBM),得到其參數(shù)集合,Corr-RBM目標(biāo)函數(shù)包含三個(gè)部分,即第一模態(tài)數(shù)據(jù)的中間表示向量與第一模態(tài)數(shù)據(jù)的初級向量之間的誤差和第二模態(tài)數(shù)據(jù)的中間表示向量與第二模態(tài)數(shù)據(jù)的初級向量之間的誤差以及第一模態(tài)數(shù)據(jù)和第二模態(tài)數(shù)據(jù)的中間表示向量在統(tǒng)一的表示空間中的距離,具體表示為:min L=LD+αLI+βLT,
其中,
LI=-log p(vI),
LT=-log p(vT),
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710989497.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





