[發(fā)明專利]一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法有效
| 申請?zhí)枺?/td> | 201710378474.3 | 申請日: | 2017-05-25 |
| 公開(公告)號: | CN107220337B | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 黃鑫;彭宇新 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06F16/43 | 分類號: | G06F16/43;G06F40/30;G06N5/02 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 遷移 網(wǎng)絡(luò) 媒體 檢索 方法 | ||
本發(fā)明涉及一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,包括以下步驟:1.建立單媒體數(shù)據(jù)庫和跨媒體數(shù)據(jù)庫,并將跨媒體數(shù)據(jù)庫中的數(shù)據(jù)分為訓(xùn)練集和測試集。2.利用單媒體數(shù)據(jù)庫和跨媒體數(shù)據(jù)庫的訓(xùn)練集中的數(shù)據(jù)訓(xùn)練混合遷移網(wǎng)絡(luò),用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征。3.利用訓(xùn)練好的混合遷移網(wǎng)絡(luò),得到跨媒體數(shù)據(jù)庫的測試集中數(shù)據(jù)的統(tǒng)一表征,進(jìn)而計(jì)算跨媒體相似性。4.使用跨媒體測試集中的一種媒體類型作為查詢集,另一種媒體類型作為檢索庫進(jìn)行檢索,根據(jù)相似性得到最終檢索結(jié)果。本發(fā)明既實(shí)現(xiàn)了從單媒體到跨媒體的知識遷移,也通過強(qiáng)調(diào)目標(biāo)域的語義關(guān)聯(lián)生成更加適合跨媒體檢索的統(tǒng)一表征,提高了跨媒體檢索的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明屬于多媒體檢索領(lǐng)域,具體涉及一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法。
背景技術(shù)
隨著人類文明的進(jìn)步和科學(xué)技術(shù)的發(fā)展,圖像、文本、視頻、音頻等多媒體數(shù)據(jù)快速增長,已逐漸成為了信息存儲與傳播的主要形式。在這種情況下,跨媒體檢索成為了人工智能的重要應(yīng)用之一。跨媒體檢索是一種新的檢索形式,能夠根據(jù)任意媒體類型的用戶查詢,返回具有相關(guān)語義而媒體類型不同的檢索結(jié)果。如用戶可以通過一張圖像作為查詢檢索相關(guān)的文本,或以文本為查詢檢索符合其描述的圖像。與單媒體檢索相比,跨媒體檢索能夠?yàn)榛ヂ?lián)網(wǎng)用戶提供更加靈活的檢索體驗(yàn),并為多媒體數(shù)據(jù)的統(tǒng)一管理提供技術(shù)支撐。然而,不同媒體類型的計(jì)算機(jī)特征表示形式往往不同,構(gòu)成了“媒體鴻溝”,使得跨媒體檢索面臨重要挑戰(zhàn)。
針對該問題,現(xiàn)有的主流方法是統(tǒng)一表征學(xué)習(xí),即為不同媒體類型學(xué)習(xí)一個(gè)統(tǒng)一的語義空間,進(jìn)而利用常用的距離度量等方式實(shí)現(xiàn)跨媒體檢索。在該空間中,數(shù)據(jù)的距離取決于其語義的相似程度,而與媒體類型無關(guān)。早期工作主要利用統(tǒng)計(jì)分析方法學(xué)習(xí)不同媒體到統(tǒng)一空間的線性映射矩陣。如典型相關(guān)分析(canonical correlation analysis,簡稱CCA)方法能夠?qū)W習(xí)得到最大化兩種媒體數(shù)據(jù)關(guān)聯(lián)的子空間,進(jìn)而利用相同維度的統(tǒng)一表征來表示不同媒體的數(shù)據(jù)。Rasiwasia等人在文獻(xiàn)“A New Approach to Cross-ModalMultimedia Retrieval”中提出了高層語義映射方法,先利用CCA學(xué)習(xí)兩種媒體的統(tǒng)一空間,再使用邏輯回歸方法在此空間中得到高層語義表示作為最終的統(tǒng)一表征。該方法在CCA的基礎(chǔ)上利用了概念類別標(biāo)注信息,因此學(xué)習(xí)到的統(tǒng)一表征具有更好的語義辨別能力。Peng等人在文獻(xiàn)“Semi-Supervised Cross-Media Feature Learning with UnifiedPatch Graph Regularization”中提出了S2UPG方法,利用同一個(gè)超圖聯(lián)合建模多種媒體的整體數(shù)據(jù)與語義單元,從而能夠深入挖掘細(xì)粒度的跨媒體關(guān)聯(lián)關(guān)系,取得了更高的檢索準(zhǔn)確率。
近年來,深度學(xué)習(xí)在多媒體檢索領(lǐng)域發(fā)揮了重要作用,基于深度網(wǎng)絡(luò)的跨媒體統(tǒng)一表征學(xué)習(xí)成為了一個(gè)研究熱點(diǎn)。如Ngiam在文獻(xiàn)“Multimodal Deep Learning”中提出多模態(tài)自編碼器方法,通過同時(shí)考慮單媒體重構(gòu)誤差與跨媒體關(guān)聯(lián)關(guān)系,利用一個(gè)共享編碼層得到統(tǒng)一表征。Srivastava等人在文獻(xiàn)“Learning Representations for MultimodalData with Deep Belief Nets”中提出多模態(tài)深度信念網(wǎng)絡(luò),通過一個(gè)關(guān)聯(lián)RBM連接兩個(gè)分離的深度信念網(wǎng)絡(luò)來得到統(tǒng)一表征。Peng等人在文獻(xiàn)“Cross-media Retrieval byMultimodal Representation Fusion with Deep Networks”中提出了跨媒體多深度網(wǎng)絡(luò)方法,通過結(jié)合多種深度網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)分析媒體內(nèi)、媒體間的關(guān)聯(lián)關(guān)系并進(jìn)行層次化融合,取得了更好的效果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710378474.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 遷移方法和裝置
- 移動邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 基于遷移工具的國產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





