[發(fā)明專利]基于商品感知的多模態(tài)視頻高光檢測方法及其系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110397055.0 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN112801762B | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設計)人: | 趙洲;郭兆宇;周楚程;劉瑞濤;汪達舟 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 商品 感知 多模態(tài) 視頻 檢測 方法 及其 系統(tǒng) | ||
本發(fā)明提出了一種基于商品感知的多模態(tài)視頻高光檢測方法及其系統(tǒng),屬于視頻高光檢測領域。首先,分別進行視頻預處理和文本預處理,通過視頻預處理得到視頻片段的自注意力語義表示,通過文本預處理獲取視頻標題、商品標簽以及商品名稱的詞特征,構建并更新得到最終圖,獲取句法感知的文本信息表示;然后,兩者通過共同注意力模塊融合得到跨模態(tài)語義集合,使用含有sigmoid函數(shù)的全連接層計算每一個視頻片段的置信度;最后,通過置信度篩選出候選片段來構建無向圖,利用圖卷積網絡從無向圖中預測出最終的高光索引。本發(fā)明通過將商品名稱、標簽和視頻標題作為監(jiān)督元素加入模型中,檢測精度更高。
技術領域
本發(fā)明涉及視頻高光檢測領域,尤其涉及一種基于商品感知的多模態(tài)視頻高光檢測方法及其系統(tǒng)。
背景技術
在電子商務中,介紹視頻是展示產品特點和使用情況的重要媒介。在產品推薦流中,通常采用視頻高光檢測方法捕捉最吸引人的片段并展示給消費者,從而提高產品的點擊率。然而,目前的研究方法應用于實際場景的效果并不令人滿意。與其他視頻理解任務相比,視頻高光檢測相對抽象和主觀,只有利用視覺信息才能做出準確的判斷。
視頻高光檢測算法一般分為無監(jiān)督方法和監(jiān)督方法。無監(jiān)督技術通過手動獲取的特性或規(guī)則創(chuàng)建視頻高光。無監(jiān)督的視頻高光檢測方法可以進一步分為領域無關或領域特定的方法。領域無關的方法提出在任何視頻上均勻工作的運動強度作為弱監(jiān)督信號。領域特定的方法針對主題領域定制亮點,并利用視頻持續(xù)時間和視覺共現(xiàn)作為弱監(jiān)督信號。然而,沒有引入監(jiān)督信號,高光檢測的結果并不令人滿意。
除了視覺信息,高度抽象的視頻標題可以幫助檢測視頻高光,傳統(tǒng)的有監(jiān)督方法多為單模態(tài)方法,無法充分利視頻相關信息的問題,因此有必要提供一種多模態(tài)視頻高光檢測任務,將視頻相關語言信息引入到監(jiān)督信號中。
發(fā)明內容
為了解決現(xiàn)有技術中的無監(jiān)督方法無法準確定位高光片段以及單模態(tài)方法無法充分利視頻相關信息的問題,本發(fā)明提出了一種基于商品感知的多模態(tài)視頻高光檢測方法及其系統(tǒng)。
本發(fā)明基于電子商務場景,將商品的名字、標簽和視頻的題目作為監(jiān)督元素加入模型中,得出的高光檢測方法可以更好的檢測出視頻中的片段,相對于人工標注大大節(jié)約了時間,相對于無監(jiān)督方法和單模態(tài)方法,可以更加準確的檢測出高光片段。
為了實現(xiàn)上述目的,本發(fā)明采用的技術方案為:
一種基于商品感知的多模態(tài)視頻高光檢測方法,包括如下步驟:
S1:將一段視頻劃分為部分重疊的視頻片段,提取每一段視頻片段的幀特征,并采用Bi-GRU網絡學習視頻片段的自注意力語義表示hv;
S2:提取一段視頻的視頻標題、商品標簽以及商品名稱的詞特征,通過沿相關詞間的依賴邊傳遞信息,構建視頻標題圖和商品名稱圖建立商品屬性列表,利用查詢焦點圖聚合模塊分別獲得屬性感知的商品名稱圖Gcl和屬性感知的視頻標題圖Gtl;
將屬性感知的商品名稱圖Gcl轉換為商品屬性列表,利用查詢焦點圖聚合模塊獲得最終圖,利用圖神經網絡獲得最終圖的邊,將邊的最終表達作為句法感知的文本信息表示其中,下角標m表示最終圖Gt中的邊的個數(shù),表示最終圖中第i個邊的最終表達;
S3:結合視頻片段的句法感知的文本信息表示ht和自注意力語義表示hv,利用共同注意力模塊分別獲得句法感知的視覺表達和句法感知的語義表達融合后得到跨模態(tài)語義表示f=(f1,f2,…,fn),其中,fi表示第i個視頻片段對應的跨模態(tài)語義表示;
采用Bi-GRU網絡學習得到最終的語義表示然后使用含有sigmoid函數(shù)的全連接層計算每一個視頻片段的置信度si;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110397055.0/2.html,轉載請聲明來源鉆瓜專利網。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法





