[發明專利]一種基于深度學習的多模態圖文推薦方法及設備有效
| 申請號: | 202110385246.5 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113094534B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 黃昭;胡浩武 | 申請(專利權)人: | 陜西師范大學 |
| 主分類號: | G06F16/535 | 分類號: | G06F16/535;G06F16/335;G06V10/762;G06V10/80;G06V10/764;G06V10/82;G06K9/62;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 王艾華 |
| 地址: | 710119 陜西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 多模態 圖文 推薦 方法 設備 | ||
1.一種基于深度學習的多模態圖文推薦方法,其特征在于,包括以下步驟:
基于用戶的歷史記錄采用跨模態檢索模型計算用戶的正反饋和負反饋的聚類中心點,所述歷史記錄包括圖像和文本;
從用戶歷史記錄中挑選出用戶評分較高的前N條歷史記錄;
提取所述N條歷史記錄的特征,根據所述特征得到N條歷史記錄的所屬類別;
用跨模態檢索模型從與所述N條歷史記錄模態相同的數據庫中提取同類型的數據;
計算所提取同類型的數據和所述N個歷史記錄的相似度得分,將所述相似度得分按照倒序排列,選取前M項相似度得分對應的歷史記錄;
使用所述正反饋和負反饋的聚類中心點分別計算所述M項中每一項歷史記錄的正反饋分數和負反饋分數;
根據M項相似度得分中每一項的相似度得分及所述正反饋分數和負反饋分數,計算所述M項歷史記錄中每一項數據的總得分,并按照所述總得分倒序排列,選取前K個數據;
針對所述K個數據中的每一項數據,用跨模態檢索模型從文本數據庫或圖像數據庫中找到與之對應的K個數據;
將所述前K個數據和文本數據庫或圖像數據庫中的K個數據對應結合,形成K項圖像-文本對,即得到推薦結果;跨模態檢索模型通過以下過程進行訓練得到:
采用去除了最后一層分類層的MobileNetV3-large模型來初步提取圖像特征,在初步提取圖像特征的基礎上,一方面用AE來提取圖像模態內的表示,即具有模態內信息的圖像模態內表示;一方面使用RBM提取得到圖像進一步的表示,該圖像進一步的表示將被用來形成具有文本信息的圖像模態間表示;
使用TF-IDF算法來初步提取文本特征;在初步提取文本特征的基礎上一方面使用DAE提取文本模態內的表示,即具有模態內信息的文本模態內表示;一方面使用RSRBM提取得到文本進一步的表示,該文本進一步的表示將被用來形成具有圖像信息的文本模態間表示;
基于所述圖像進一步的表示和文本進一步的表示,本發明用Multimodal DBN來提取圖像和文本的模態間表示;在Multimodal DBN的頂層,在圖像和文本表示之間進行交替的吉布斯采樣,即獲得帶有文本特征的圖像模態間表示和帶有圖像特征的文本模態間表示;
利用兩個joint-RBM模型融合每種模態的模態內表示和模態間表示,
一個joint-RBM模型將圖像模態內表示和圖像模態間表示進行融合,得到圖像的綜合表示;另一個joint-RBM模型,將具有文本模態內表示和文本模態間表示進行融合,得到文本的綜合表示;
分別用兩個DAE對所述圖像的綜合表示和所述文本的綜合表示分別做分類訓練,以提取圖像和文本特征的最佳隱藏層數;
固定所提取的圖像和文本的最佳隱藏層數,并使圖像和文本的最佳隱藏層數一一對齊,組成棧式對應自編碼器;
在棧式對應自編碼器中,使用關聯約束函數,重新利用第二階段圖像的綜合表示和第二階段文本的綜合表示訓練所述棧式對應自編碼器,使得所述棧式對應自編碼器在得到圖像和文本最終表示的同時,能夠在圖像和文本的表示之間建立聯系;
使用所述正反饋和負反饋的聚類中心點分別計算所述M項中每一項歷史記錄的正反饋分數和負反饋分數時:計算出備選圖片或文本數據特征與該用戶正反饋中心和負反饋中心的距離,使用圖像或者文本數據特征到正負反饋聚類中心點距離的倒數的和,作為該數據的正負反饋分數。
2.根據權利要求1所述的基于深度學習的多模態圖文推薦方法,其特征在于,跨模態檢索模型用于數據特征的提取,跨模態檢索模型訓練的過程分為兩個階段:
在第一個階段,對于圖像,提取圖像模態內的表示和帶有文本信息的圖像模態間的表示;對于文本,提取文本模態內的表示和帶有圖像信息的文本模態間的表示;
在第二個階段,把圖像模態內的表示和圖像模態間的表示結合起來,形成圖像綜合表示;同時,把文本模態內的表示和文本模態間的表示結合起來,形成文本綜合表示,然后利用棧式對應自編碼器和約束函數在圖像和文本的綜合表示之間建立聯系,同時學習到圖像和文本的最終表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西師范大學,未經陜西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110385246.5/1.html,轉載請聲明來源鉆瓜專利網。





