[發明專利]基于商品感知的多模態視頻高光檢測方法及其系統有效
| 申請號: | 202110397055.0 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN112801762B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 趙洲;郭兆宇;周楚程;劉瑞濤;汪達舟 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 商品 感知 多模態 視頻 檢測 方法 及其 系統 | ||
1.一種基于商品感知的多模態視頻高光檢測方法,其特征在于,包括如下步驟:
S1:將一段視頻劃分為部分重疊的視頻片段,提取每一段視頻片段的幀特征,并采用Bi-GRU網絡學習視頻片段的自注意力語義表示;
S2:提取一段視頻的視頻標題、商品標簽以及商品名稱的詞特征,通過沿相關詞間的依賴邊傳遞信息,構建視頻標題圖和商品名稱圖;建立商品屬性列表,利用查詢焦點圖聚合模塊分別獲得屬性感知的商品名稱圖和屬性感知的視頻標題圖;
將屬性感知的商品名稱圖轉換為商品屬性列表,利用查詢焦點圖聚合模塊獲得最終圖,利用圖神經網絡獲得最終圖的邊,將邊的最終表達作為句法感知的文本信息表示;
S3:結合視頻片段的句法感知的文本信息表示和自注意力語義表示,利用共同注意力模塊分別獲得句法感知的視覺表達和句法感知的語義表達,融合后得到跨模態語義表示;
采用Bi-GRU網絡學習得到最終的語義表示,然后使用含有sigmoid函數的全連接層計算每一個視頻片段的置信度;
S4:基于圖的微調模塊,利用步驟S3中置信度最高的k個片段作為圖中節點,計算圖中兩兩節點之間的連接指數,當連接指數大于閾值時,用邊連接兩個節點,形成無向圖G;
S5:對無向圖G進行圖卷積,預測高光片段索引并輸出索引對應的高光片段。
2.根據權利要求1所述的基于商品感知的多模態視頻高光檢測方法,其特征在于,步驟S1具體為:
1.1)將一段視頻分為n個片段,每一個視頻片段由連續的若干幀構成,且相鄰兩個視頻片段之間存在部分重疊;標記視頻中的每一個高光片段的邊界作為標簽;
1.2)提取每一個視頻片段的幀特征vi,構成幀特征集v=(v1,v2,…vi…,vn),其中,vi表示第i個視頻片段的幀特征;
1.3)將幀特征集作為第一Bi-GRU網絡的輸入,學習得到視頻片段的自注意力語義表示計算公式為:
其中,和分別是第一Bi-GRU網絡的前饋網絡和反饋網絡,Wv是可訓練矩陣,表示第i個視頻片段的自注意力語義表示,表示的前向語義特征,表示的后向語義特征,f(·)表示tanh激活函數,||表示將前后的語義特征進行拼接,b表示偏置;在初始化時,令
3.根據權利要求1所述的基于商品感知的多模態視頻高光檢測方法,其特征在于,步驟S2中,將視頻標題的詞特征表示為商品名稱的詞特征表示為商品標簽的詞特征表示為
將商品名稱的詞特征作為圖的節點構建商品名稱圖將視頻標題的詞特征作為圖的節點構建視頻標題圖
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110397055.0/1.html,轉載請聲明來源鉆瓜專利網。





