[發明專利]視頻描述生成方法、裝置、設備及存儲介質有效
| 申請號: | 201910325193.0 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN109874029B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 裴文杰;張記袁;柯磊;戴宇榮;沈小勇;賈佳亞;王向榮 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04N21/234 | 分類號: | H04N21/234;H04N21/2343;H04N21/235;H04N21/435;H04N21/44;H04N21/4402 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 描述 生成 方法 裝置 設備 存儲 介質 | ||
1.一種視頻描述生成方法,其特征在于,所述方法包括:
通過視頻描述生成模型的編碼器對目標視頻進行編碼,得到所述目標視頻的目標視覺特征;
通過所述視頻描述生成模型的基礎解碼器對所述目標視覺特征進行解碼,得到各個候選詞匯對應的第一選取概率,所述基礎解碼器用于采用注意力機制解碼出與所述目標視覺特征匹配的所述候選詞匯;
通過所述視頻描述生成模型的輔助解碼器對所述目標視覺特征進行解碼,得到各個所述候選詞匯對應的第二選取概率,所述輔助解碼器的記憶結構中包括各個所述候選詞匯對應的參考視覺上下文信息,所述參考視覺上下文信息根據所述候選詞匯對應的相關視頻生成;
根據所述第一選取概率和所述第一選取概率對應的第一權重,以及所述第二選取概率和所述第二選取概率對應的第二權重,計算各個所述候選詞匯的目標選取概率;
將最高目標選取概率對應的所述候選詞匯確定為所述候選詞匯中的解碼詞;
根據若干個所述解碼詞生成所述目標視頻對應的視頻描述。
2.根據權利要求1所述的方法,其特征在于,所述通過所述視頻描述生成模型的輔助解碼器對所述目標視覺特征進行解碼,得到各個所述候選詞匯對應的第二選取概率,包括:
當進行第t次解碼時,獲取第t-1次解碼得到的第t-1解碼詞以及第t-1隱藏狀態,所述第t-1隱藏狀態是所述基礎解碼器進行第t-1次解碼時輸出的隱藏狀態,t為大于或等于2的整數;
根據所述第t-1解碼詞、所述第t-1隱藏狀態、所述目標視覺特征以及所述候選詞匯對應的所述參考視覺上下文信息,確定所述候選詞匯的所述第二選取概率。
3.根據權利要求2所述的方法,其特征在于,所述根據所述第t-1解碼詞、所述第t-1隱藏狀態、所述目標視覺特征以及所述候選詞匯對應的所述參考視覺上下文信息,確定所述候選詞匯的所述第二選取概率,包括:
根據所述目標視覺特征和所述第t-1隱藏狀態,生成進行第t次解碼時的目標視覺上下文信息;
根據所述目標視覺上下文信息和所述參考視覺上下文信息,確定所述候選詞匯的第一匹配度;
獲取所述記憶結構中所述候選詞匯對應的第一詞特征向量以及所述第t-1解碼詞的第二詞特征向量;
根據所述第一詞特征向量和所述第二詞特征向量,確定所述候選詞匯的第二匹配度;
根據所述第一匹配度和所述第二匹配度,確定所述候選詞匯的所述第二選取概率。
4.根據權利要求2所述的方法,其特征在于,所述記憶結構中還包括各個所述候選詞匯對應的輔助信息;
所述根據所述第t-1解碼詞、所述第t-1隱藏狀態、所述目標視覺特征以及所述候選詞匯對應的所述參考視覺上下文信息,確定所述候選詞匯的所述第二選取概率,包括:
根據所述輔助信息、所述第t-1解碼詞、所述第t-1隱藏狀態、所述目標視覺特征以及所述候選詞匯對應的所述參考視覺上下文信息,確定所述候選詞匯的所述第二選取概率。
5.根據權利要求1至4任一所述的方法,其特征在于,所述方法包括:
對于各個所述候選詞匯,根據樣本視頻對應的樣本視頻描述,確定所述候選詞匯對應的I條所述相關視頻,所述相關視頻的所述樣本視頻描述中包含所述候選詞匯,I為大于或等于1的整數;
對于各條所述相關視頻,確定所述相關視頻中的k個關鍵視覺特征,所述關鍵視覺特征與所述候選詞匯的匹配度高于所述相關視頻中其它視覺特征與所述候選詞匯的匹配度,k為大于等于1的整數;
根據I條所述相關視頻對應的各個所述關鍵視覺特征,生成所述候選詞匯對應的所述參考視覺上下文信息;
將各個所述候選詞匯對應的所述參考視覺上下文信息存儲到所述記憶結構。
6.根據權利要求5所述的方法,其特征在于,所述確定所述相關視頻中的k個關鍵視覺特征,包括:
通過所述基礎解碼器,獲取所述相關視頻中各個視覺特征對所述候選詞匯的特征權重,其中,各個所述特征權重之和為1;
將前k個所述特征權重對應的所述視覺特征確定為所述關鍵視覺特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910325193.0/1.html,轉載請聲明來源鉆瓜專利網。





