[發(fā)明專利]基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法有效
| 申請?zhí)枺?/td> | 202010108302.6 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111246256B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設(shè)計)人: | 史景倫;鄧麗;梁可弘;傅釬栓;林陽城 | 申請(專利權(quán))人: | 華南理工大學(xué);廣州夢輝機器人有限公司 |
| 主分類號: | H04N21/25 | 分類號: | H04N21/25;H04N21/466;G06F16/783;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 蔣劍明 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多模態(tài) 視頻 內(nèi)容 任務(wù) 學(xué)習(xí) 推薦 方法 | ||
1.一種基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法,其特征在于,所述的視頻推薦方法包括下列步驟:
S1、采用深度學(xué)習(xí)技術(shù)對視頻內(nèi)容進(jìn)行分析,通過Inception-V3模型、3維卷積神經(jīng)網(wǎng)絡(luò)分別提取視頻靜態(tài)特征、動態(tài)特征構(gòu)成視覺特征,通過VGGish模型提取音頻特征,通過統(tǒng)計視頻標(biāo)題中每個詞在該視頻文本詞庫中出現(xiàn)的頻率獲得視頻文本特征;
S2、采用注意力機制學(xué)習(xí)視頻各模態(tài)特征的權(quán)重,最后將各模態(tài)特征進(jìn)行加權(quán)和獲得視頻特征表示,其中,所述的視頻各模態(tài)特征包括視覺特征、音頻特征、視頻文本特征;
S3、將用戶和視頻作為節(jié)點構(gòu)成用戶-視頻社交網(wǎng)絡(luò),通過深度游走方法學(xué)習(xí)網(wǎng)絡(luò)中頂點的向量表示,并作為用戶社會關(guān)系的特征表示,其中,用戶-視頻社交網(wǎng)絡(luò)的頂點表示用戶;
S4、基于注意力機制學(xué)習(xí)有效的特征組合,并與原始特征進(jìn)行拼接融合作為深度神經(jīng)網(wǎng)絡(luò)的輸入,學(xué)習(xí)多域特征表示;
其中,所述的步驟S4包括:
S41、多域特征中的離散數(shù)據(jù)進(jìn)行獨熱編碼后經(jīng)過嵌入矩陣降維,所有連續(xù)特征拼接后,通過一層全連接轉(zhuǎn)換成同等維度的向量;
S42、采用注意力機制學(xué)習(xí)有效的特征組合,通過注意力機制學(xué)習(xí)不同特征之間交互的權(quán)重,權(quán)重計算公式如下:
einter=[a0,0e0e0,a0,1e0e1,…ai,jeiej],
其中ei為第i個特征,eiej為特征元素級別相乘,相乘后維度不變,為第i個特征與第j個特征交互的注意力得分,注意力得分經(jīng)過歸一化得到ai,j,表示特征交互的權(quán)重,einter為多域特征兩兩交互構(gòu)成的交叉特征,W、h是注意力網(wǎng)絡(luò)的可訓(xùn)練參數(shù),b表示偏置;
S43、原始特征及其基于注意力的交叉特征進(jìn)行拼接融合后作為輸入,通過多層感知機輸出的結(jié)果作為多域特征最終的表示;
S5、基于上述步驟生成的特征嵌入作為多任務(wù)學(xué)習(xí)中各任務(wù)之間共享的部分,同時保留各任務(wù)特定的輸出層生成預(yù)測結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法,其特征在于,所述的步驟S1包括:
S11、對視頻抽幀,利用經(jīng)過預(yù)訓(xùn)練的經(jīng)典圖像處理模型Inception-V3模型提取每一幀視頻的靜態(tài)特征,最后通過平均池化層融合每一幀的信息作為視頻的靜態(tài)特征,利用3維卷積神經(jīng)網(wǎng)絡(luò)提取視頻的動態(tài)特征;
S12、提取音頻信息,利用經(jīng)過預(yù)訓(xùn)練的VGGish模型提取視頻的音頻特征;
S13、提取視頻標(biāo)題信息,統(tǒng)計每個詞在該視頻文本詞庫中出現(xiàn)的頻率作為視頻文本特征;
S14、采用PCA方法對視頻靜態(tài)特征、視頻動態(tài)特征、音頻特征進(jìn)行降維,同時視頻靜態(tài)特征和視頻動態(tài)特征進(jìn)行拼接構(gòu)成視覺特征。
3.根據(jù)權(quán)利要求1所述的基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法,其特征在于,所述的步驟S2包括:
S21、融合用戶特征,通過注意力機制學(xué)習(xí)用戶與視頻各模態(tài)之間的依賴關(guān)系,即學(xué)習(xí)用戶分配視覺特征、音頻特征、視頻文本特征的權(quán)重,由以下公式計算:
其中m∈{v,a,t}分別表示視覺模態(tài)、聽覺模態(tài)和文本模態(tài),為各模態(tài)求得的注意力得分,注意力得分經(jīng)過歸一化得到am,表示用戶對各模態(tài)的偏好,該用戶對各模態(tài)的偏好等價于用戶對各模態(tài)的權(quán)重,則表示從視頻中提取出來的視覺特征、聽覺特征和文本特征,eU是用戶特征,和是注意力網(wǎng)絡(luò)的可訓(xùn)練參數(shù),b表示偏置;
S22、視頻各模態(tài)特征進(jìn)行加權(quán)和獲得該視頻最終的特征表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué);廣州夢輝機器人有限公司,未經(jīng)華南理工大學(xué);廣州夢輝機器人有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108302.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





