[發明專利]一種基于多概念知識挖掘的視頻描述生成方法及存儲介質在審
| 申請號: | 202210375021.6 | 申請日: | 2022-04-11 |
| 公開(公告)號: | CN114743143A | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 王瀚漓;張沁宇 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/764;G06K9/62;G06F40/30 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概念 知識 挖掘 視頻 描述 生成 方法 存儲 介質 | ||
1.一種基于多概念知識挖掘的視頻描述生成方法,其特征在于,包括:獲取待處理的輸入視頻,對所述輸入視頻進行視覺特征和語義標簽提取,并對所述語義標簽進行優化,獲得先驗語義標簽,以所提取的視覺特征和所述先驗語義標簽作為基于Transformer結構的視頻描述生成模型的輸入,獲得對應的描述結果,其中,所述視覺特征包括2D特征和3D特征;
所述視頻描述生成模型訓練時,從訓練樣本中進行視頻-文本知識、視頻-視頻知識和文本-文本知識的挖掘,優化視頻描述生成模型中多頭自注意力層的參數和詞嵌入層的參數。
2.根據權利要求1所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述語義標簽包括圖像分類預測標簽、行為識別預測標簽、目標檢測預測標簽以及各標簽對應的概率值。
3.根據權利要求1所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述視覺特征和語義標簽的提取以及所述視頻-文本知識的挖掘基于外部的預訓練模型實現,所述視頻-視頻知識和文本-文本知識的挖掘基于目標數據集語料庫訓練實現。
4.根據權利要求3所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述視頻-視頻知識和文本-文本知識的挖掘具體為:
將訓練樣本中的2D特征和3D特征分別通過一個獨立的編碼器,輸出2D特征編碼和3D特征編碼并進行拼接,進行視頻描述生成任務的預訓練,訓練完成后,提取每個編碼器中多頭注意力層的參數和詞嵌入層的參數;
基于詞嵌入層的參數進行計算得到目標數據集語料庫中各單詞之間的局部語義相似度;
使用訓練樣本中的2D特征和3D特征進行視頻多標簽分類任務的預訓練,訓練過程中的損失函數基于所述局部語義相似度構建。
5.根據權利要求4所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述損失函數表示為:
yk,i;j+1=yk,i;j+T(simlocal(k,j),0.5)-yk,i;j×T(simlocal(k,j),0.5)
T(x,t)=x×sgn(max(x-t),0)
其中,p表示每個單詞在該位置上出現的概率,pm=max(p-m,0),m是一個控制負例貢獻的超參數,γ+和γ-分別是控制正例和負例權重的超參數,yk,i;j+1代表第i個視頻在對視頻所屬的第j+1個標簽進行處理時字典中第k個標簽的目標值,simlocal(k,j)表示局部語義相似度。
6.根據權利要求1所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,對所述語義標簽進行優化具體為:
基于大型詞向量模型對所有語義標簽所屬數據集語料庫中的各單詞之間進行全局語義相似度的計算,并基于詞嵌入層的參數計算得到目標數據集語料庫中各單詞之間的局部語義相似度,建立雙重單詞映射,獲取每個語義標簽的映射值,基于該映射值計算主題相關度,以設定數值選取主題相關度高的語義標簽作為先驗語義標簽。
7.根據權利要求6所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述大型詞向量模型為GloVe模型。
8.根據權利要求6所述的基于多概念知識挖掘的視頻描述生成方法,其特征在于,所述全局語義相似度和局部語義相似度采用的計算公式均為:
其中,和分別代表兩個單詞基于詞嵌入層參數的詞向量表示,α和β是控制語義相似度分布的超參數,在計算全局語義相似度和局部語義相似度取不同的數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210375021.6/1.html,轉載請聲明來源鉆瓜專利網。





