[發(fā)明專利]基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法有效

申請?zhí)枺?/td>	202010108302.6	申請日：	2020-02-21
公開（公告）號：	CN111246256B	公開（公告）日：	2021-05-25
發(fā)明（設(shè)計）人：	史景倫;鄧麗;梁可弘;傅釬栓;林陽城	申請（專利權(quán)）人：	華南理工大學(xué);廣州夢輝機器人有限公司
主分類號：	H04N21/25	分類號：	H04N21/25;H04N21/466;G06F16/783;G06N3/04;G06N3/08
代理公司：	廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245	代理人：	蔣劍明
地址：	510640 廣***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于多模態(tài) 視頻內(nèi)容任務(wù) 學(xué)習(xí) 推薦方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法，其特征在于，所述的視頻推薦方法包括下列步驟：

S1、采用深度學(xué)習(xí)技術(shù)對視頻內(nèi)容進(jìn)行分析，通過Inception-V3模型、3維卷積神經(jīng)網(wǎng)絡(luò)分別提取視頻靜態(tài)特征、動態(tài)特征構(gòu)成視覺特征，通過VGGish模型提取音頻特征，通過統(tǒng)計視頻標(biāo)題中每個詞在該視頻文本詞庫中出現(xiàn)的頻率獲得視頻文本特征；

S2、采用注意力機制學(xué)習(xí)視頻各模態(tài)特征的權(quán)重，最后將各模態(tài)特征進(jìn)行加權(quán)和獲得視頻特征表示，其中，所述的視頻各模態(tài)特征包括視覺特征、音頻特征、視頻文本特征；

S3、將用戶和視頻作為節(jié)點構(gòu)成用戶-視頻社交網(wǎng)絡(luò)，通過深度游走方法學(xué)習(xí)網(wǎng)絡(luò)中頂點的向量表示，并作為用戶社會關(guān)系的特征表示，其中，用戶-視頻社交網(wǎng)絡(luò)的頂點表示用戶；

S4、基于注意力機制學(xué)習(xí)有效的特征組合，并與原始特征進(jìn)行拼接融合作為深度神經(jīng)網(wǎng)絡(luò)的輸入，學(xué)習(xí)多域特征表示；

其中，所述的步驟S4包括：

S41、多域特征中的離散數(shù)據(jù)進(jìn)行獨熱編碼后經(jīng)過嵌入矩陣降維，所有連續(xù)特征拼接后，通過一層全連接轉(zhuǎn)換成同等維度的向量；

S42、采用注意力機制學(xué)習(xí)有效的特征組合，通過注意力機制學(xué)習(xí)不同特征之間交互的權(quán)重，權(quán)重計算公式如下：

e_inter＝[a_0,0e₀e₀,a_0,1e₀e₁,…a_i,je_ie_j]，

其中e_i為第i個特征，e_ie_j為特征元素級別相乘，相乘后維度不變，為第i個特征與第j個特征交互的注意力得分，注意力得分經(jīng)過歸一化得到a_i,j，表示特征交互的權(quán)重，e_inter為多域特征兩兩交互構(gòu)成的交叉特征，W、h是注意力網(wǎng)絡(luò)的可訓(xùn)練參數(shù)，b表示偏置；

S43、原始特征及其基于注意力的交叉特征進(jìn)行拼接融合后作為輸入，通過多層感知機輸出的結(jié)果作為多域特征最終的表示；

S5、基于上述步驟生成的特征嵌入作為多任務(wù)學(xué)習(xí)中各任務(wù)之間共享的部分，同時保留各任務(wù)特定的輸出層生成預(yù)測結(jié)果。

2.根據(jù)權(quán)利要求1所述的基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法，其特征在于，所述的步驟S1包括：

S11、對視頻抽幀，利用經(jīng)過預(yù)訓(xùn)練的經(jīng)典圖像處理模型Inception-V3模型提取每一幀視頻的靜態(tài)特征，最后通過平均池化層融合每一幀的信息作為視頻的靜態(tài)特征，利用3維卷積神經(jīng)網(wǎng)絡(luò)提取視頻的動態(tài)特征；

S12、提取音頻信息，利用經(jīng)過預(yù)訓(xùn)練的VGGish模型提取視頻的音頻特征；

S13、提取視頻標(biāo)題信息，統(tǒng)計每個詞在該視頻文本詞庫中出現(xiàn)的頻率作為視頻文本特征；

S14、采用PCA方法對視頻靜態(tài)特征、視頻動態(tài)特征、音頻特征進(jìn)行降維，同時視頻靜態(tài)特征和視頻動態(tài)特征進(jìn)行拼接構(gòu)成視覺特征。

3.根據(jù)權(quán)利要求1所述的基于多模態(tài)視頻內(nèi)容和多任務(wù)學(xué)習(xí)的視頻推薦方法，其特征在于，所述的步驟S2包括：

S21、融合用戶特征，通過注意力機制學(xué)習(xí)用戶與視頻各模態(tài)之間的依賴關(guān)系，即學(xué)習(xí)用戶分配視覺特征、音頻特征、視頻文本特征的權(quán)重，由以下公式計算：

其中m∈{v,a,t}分別表示視覺模態(tài)、聽覺模態(tài)和文本模態(tài)，為各模態(tài)求得的注意力得分，注意力得分經(jīng)過歸一化得到a^m，表示用戶對各模態(tài)的偏好，該用戶對各模態(tài)的偏好等價于用戶對各模態(tài)的權(quán)重，則表示從視頻中提取出來的視覺特征、聽覺特征和文本特征，e_U是用戶特征，和是注意力網(wǎng)絡(luò)的可訓(xùn)練參數(shù)，b表示偏置；

S22、視頻各模態(tài)特征進(jìn)行加權(quán)和獲得該視頻最終的特征表示。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué);廣州夢輝機器人有限公司，未經(jīng)華南理工大學(xué);廣州夢輝機器人有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010108302.6/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種螺栓沖壓高效模具結(jié)構(gòu)及靈活沖模方法
下一篇：一種適合滴灌的農(nóng)家肥漚制方法

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】