[發明專利]基于深度關聯網絡的跨模態檢索方法在審
| 申請號: | 201710989497.8 | 申請日: | 2017-10-21 |
| 公開(公告)號: | CN107832351A | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 蔡國永;馮耀功 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 關聯 網絡 跨模態 檢索 方法 | ||
1.基于深度關聯網絡的跨模態檢索方法,其特征在于,包括如下步驟:
1)利用初始特征提取方法分別獲得第一模態數據的初級向量和第二模態數據的初級向量;
2)建立和訓練深度關聯網絡模型,分別將檢索目標和檢索庫成員通過深度關聯網絡模型獲得相對應的高級表示向量;
3)利用高級表示向量對檢索目標和檢索庫中每一個檢索成員進行相似度匹配,即進行歐式距離的計算;
4)將歐氏距離的計算結果按從小到大的順利排列,得到檢索目標的跨模態檢索的結果列表。
2.根據權利要求1所述的基于深度關聯網絡的跨模態檢索方法,其特征在于,步驟1)中所述的初級向量包括如下步驟:
(1)設置圖像模態數據為第一模態數據時,文本模態數據為第二模態數據,反之亦然;
(2)不同模態的原始數據采用不同的初始特征提取方法;圖像模態的數據可以通過PHOW、Gist、MPEG-7方法進行原始特征的提取,然后進行特征的拼接形成初級向量;文本模態的數據則可以通過詞袋模型的方法進行原始特征的提取,形成初級向量。
3.根據權利要求1所述的基于深度關聯網絡的跨模態檢索方法,其特征在于,步驟2)中所述的獲得相對應的高級表示向量包括如下步驟:
(1)使用訓練集數據對深度關聯網絡模型進行訓練,得到深度關聯網絡模型的各項參數,具體步驟如下:
①訓練深度關聯網絡模型的第一部分,即對應受限玻爾茲曼機模型,得到受限玻爾茲曼機模型參數集合,受限玻爾茲曼機模型目標函數包含三個部分,即第一模態數據的中間表示向量與第一模態數據的初級向量之間的誤差和第二模態數據的中間表示向量與第二模態數據的初級向量之間的誤差以及第一模態數據和第二模態數據的中間表示向量在統一的表示空間中的距離,具體表示為:minL=LD+αLI+βLT,
其中,
LI=-log p(vI),
LT=-log p(vT),
角標I表示第一模態,角標T表示第二模態,具體的,vI表示第一模態的數據,vT表示第二模態的數據,LD表示第一模態數據和第二模態數據在統一的表示空間的歐氏距離,f(.)為受限玻爾茲曼機從顯示層到隱層的映射函數,LI和LT分別表示第一模態數據的似然和第二模態數據的似然,p(.)表示受限玻爾茲曼機可見層與隱層神經單元的聯合概率分布,α和β分別是控制第一模態數據和第二模態數據在整個目標函數中所占比重的超參數;
訓練策略采用交替迭代的思想,首先使用對比散度算法更新LI和LT的參數,然后使用梯度下降算法更新LD的參數,其具體步驟如下:
A.使用對比散度算法更新LI和LT的參數,其參數包括:第一模態的受限玻爾茲曼機模型可見層與隱層之間的連接權值參數WI,第一模態的受限玻爾茲曼機模型顯示層神經單元的偏置參數cI,第一模態的受限玻爾茲曼機模型隱層神經單元的偏置參數bI,第二模態的受限玻爾茲曼機模型可見層與隱層之間的連接權值參數WT,第二模態的受限玻爾茲曼機模型顯示層神經單元的偏置參數cT,第二模態的受限玻爾茲曼機模型隱層神經單元的偏置參數bT,其更新值不僅要乘以學習率,還要依據第一模態和第二模態分別乘以目標函數中的α和β;
B.根據LD的公式使用梯度下降算法再次更新參數WI,bI,WT,bT,其更新公式如下:
其中,i和j分別表示顯示層和隱藏層的第i和第j個神經元,表示第一模態的受限玻爾茲曼機模型可見層與隱層之間的連接權值參數,為第一模態的受限玻爾茲曼機模型隱層神經單元的偏置參數,為經過受限玻爾茲曼機模型處理的第一模態數據的中間表示,表示第二模態的受限玻爾茲曼機模型可見層與隱層之間的連接權值參數,為第二模態的受限玻爾茲曼機模型隱層神經單元的偏置參數,為經過受限玻爾茲曼機模型處理的第二模態數據的中間表示,σ′(.)表示Logistic函數的導函數,∈表示學習率;
C.重復A、B步驟直至收斂;
②訓練深度關聯網絡模型的第二部分,即對應自動編碼器模型,得到自動編碼器模型參數集合,自動編碼器模型目標函數包含三個部分,即第一模態數據的中間表示向量與第一模態數據的初級向量之間的誤差和第二模態數據的中間表示向量與第二模態數據的初級向量之間的誤差以及第一模態數據和第二模態數據的高級表示向量在統一的表示空間中的相似程度,具體表示為:
其中,
其中,角標I表示第一模態,角標T表示第二模態,具體的,和分別表示輸入的第一模態數據和第二模態數據的向量,即經過受限玻爾茲曼機模型處理的第一模態數據和第二模態數據的中間表示向量,和分別表示重構之后的第一模態數據和第二模態數據的表示向量,和分別表示第一模態向量和第二模態向量的重構平方誤差,表示第一模態數據和第二模態數據高級表示向量之間的歐式距離之和,其中,和分別表示第一模態自動編碼器的表示層和第二模態自動編碼器的表示層,Wf和Wg分別表示第一模態的自動編碼器權重參數和第二模態的自動編碼器權重參數;θ為控制重構誤差和關聯誤差在損失函數中所占比重的超參數;
訓練策略為梯度下降的思想,其更新自動編碼器模型具體步驟如下:
A.使用梯度計算更新Wf,其中,∈表示學習率:
B.使用梯度計算更新Wg,其中,∈表示學習率:
C.重復A、B步驟直至收斂;
(2)將訓練集中的檢索目標和檢索庫成員通過完成訓練的深度關聯網絡獲得相對應的高級表示向量,具體步驟如下:
通過訓練得到深度關聯網絡模型的全部參數后,將測試集中的第一模態數據或者第二模態數據當作檢索目標,將另外一種模態數據當作檢索庫中的檢索成員;然后將檢索目標的初級向量與檢索庫中的每一個檢索成員的初級向量,通過完成訓練的深度關聯網絡模型獲得相對應的高級表示向量。
4.根據權利要求1所述的基于深度關聯網絡的跨模態檢索方法,其特征在于,步驟3)中所述的歐式距離的計算如下:
經過深度關聯網絡模型處理得到的檢索目標以及檢索成員的高級表示向量均為相同的維度n,且被映射到了統一的表示空間,通過歐式距離來反映兩個向量之間的相似程度;在n維空間中,歐式距離d的計算公式為:其中,ti和yi為兩個n維向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710989497.8/1.html,轉載請聲明來源鉆瓜專利網。





