[發明專利]一種基于多深度網絡結構的跨媒體排序方法有效
| 申請號: | 201610029177.3 | 申請日: | 2016-01-15 |
| 公開(公告)號: | CN105718532B | 公開(公告)日: | 2019-05-07 |
| 發明(設計)人: | 彭宇新;黃鑫;綦金瑋 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/435 | 分類號: | G06F16/435 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 網絡 結構 媒體 排序 方法 | ||
1.一種基于多深度網絡結構的跨媒體排序方法,包括以下步驟:
(1)建立包含多種媒體類型的跨媒體數據集,提取所有媒體數據的特征向量;
(2)利用跨媒體數據集訓練多深度網絡結構,用于為不同媒體的數據學習統一表示;首先使用多模態深度信念網絡進行媒體之間的關聯學習,生成包含媒體之間關聯信息的特征表示;再使用棧式自編碼器進行媒體內部的關聯學習,生成包含媒體內部關聯信息的特征表示;然后使用RBM聯接層來融合同種媒體的兩種不同表示,再迭代訓練多個多模態自編碼器模型,將其輸出作為最終的統一表示;
(3)利用訓練好的多深度網絡結構,得到不同媒體數據的統一表示,從而計算不同媒體類型數據的相似性;
(4)取一種媒體類型作為查詢媒體,另一種媒體類型作為目標媒體,將查詢媒體的每個數據作為查詢樣例,檢索目標媒體中的數據,按照步驟(3)計算查詢樣例和查詢目標的相似性,按照相似性從大到小排序,輸出結果排序列表。
2.如權利要求1所述的方法,其特征在于,步驟(1)所述的多種媒體類型包括兩種媒體類型:文本和圖像。
3.如權利要求1所述的方法,其特征在于,步驟(1)中的特征向量具體為:文本數據是提取詞頻特征向量或隱狄雷克雷分布特征向量,圖像數據是提取詞袋特征向量與MPEG-7視覺特征向量,或者圖像的紋理、顏色特征向量。
4.如權利要求1所述的方法,其特征在于,步驟(2)中為不同媒體的數據學習統一表示的方法,使用多模態深度信念網絡進行媒體之間關聯表示的學習,首先對于每種媒體類型使用兩層的深度信念網絡進行建模,具體地,使用高斯限制玻爾茲曼機來建模圖像特征上的分布模型,使用多重softmax模型來建模文本特征上的分布模型,其中表示圖像數據,表示文本數據;然后,在上述兩個模型之上,通過添加一個RBM聯接層使用吉布斯采樣的方法來學習媒體之間的關聯信息,使用如下條件分布概率公式:
P(h|hi,ht)=σ(Wihi+Wtht+b),
其中σ(x)=1/(1+e-x),h為RBM聯接層的數據分布,Wi和Wt為輸入權值,b、at和ai為偏移值;最后得到采樣結果ht和hi則用來生成包含媒體之間關聯信息的特征表示和
5.如權利要求4所述的方法,其特征在于,步驟(2)中為不同媒體的數據學習統一表示的方法,使用棧式自編碼器SAE來進行媒體內部的關聯表示學習,對于每種媒體類型分別訓練一個SAE,其輸入與多模態深度信念網絡相同,均為原始媒體特征X(i)和X(t),同時用和表示對X(i)和X(t);具體的,對于圖像和文本的兩個棧式自編碼器均包含h個自編碼層,并通過最小化如下目標函數來進行訓練:
其中,α、β表示目標函數中損失項的權重,i表示所訓練自編碼層的起始下標,和分別表示圖像和文本的平均重建誤差,表示圖像自編碼器中的編碼器網絡參數,表示解碼器網絡參數;表示文本自編碼器中的編碼器網絡參數,表示解碼器網絡參數;通過最小化重建誤差,可以在保留原始媒體特性的同時得到包含媒體內部關聯信息的特征表示和
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610029177.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布式文件系統的自適應壓縮方法及系統
- 下一篇:展會推薦方法和裝置





