[發明專利]一種基于多模態特征融合的視頻深度關系分析方法在審
| 申請號: | 202011038812.7 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112183334A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 任桐煒;武港山;于凡;王丹丹;張貝貝 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06T7/246;G10L25/24;G06F40/30;G06F16/36;G06F16/35 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 奚銘 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 特征 融合 視頻 深度 關系 分析 方法 | ||
1.一種基于多模態特征融合的視頻深度關系分析方法,其特征是建立多模態特征融合網絡,用于識別視頻中的實體關系圖,網絡輸入包括視頻、場景截圖及場景名稱和人物截圖及人物名稱,輸出為對應場景和人物間的關系圖;所述多模態特征融合網絡的實現為:首先將輸入視頻根據場景、視覺和聲音模型分為多個片段,每個片段為一個幕,并在每個幕中提取聲音和文字特征作為幕特征,然后根據給定的場景截圖和人物截圖識別它們出現在各幕中的位置,并對場景和人物提取對應的實體特征,同時對每兩個實體計算實體對特征,對于每個實體對,將幕特征、實體特征和實體對特征連接后,通過小樣本學習結合零樣本學習預測每幕實體對間的關系,合并視頻每幕上的實體對關系,得到整個視頻中的實體關系圖作為網絡輸出。
2.根據權利要求1所述的一種基于多模態特征融合的視頻深度關系分析方法,其特征是多模態特征融合網絡的實現包括以下步驟:
1)采用多模態幕分割方法將輸入的視頻分割為多個片段,每個片段為一個幕,一個幕對應一個場景;
2)根據給定的場景截圖,在步驟1)分割出的每個幕中采用SURF特征匹配將場景截圖與幀進行匹配,各個幕選取匹配點總數最高的場景為幕所對應的場景,場景的軌跡在時間上為整個片段,在空間上是片段中每個幀的畫面區域;
3)根據給定的人物截圖,在步驟1)分割出的每個幕中采用人體跟蹤方法和人臉檢測識別方法進行人物的識別和跟蹤,并且通過SURF特征匹配將人物截圖與幀進行匹配作為人臉識別的補充,得到人物實體包圍框及其在幕中的軌跡;
4)在步驟1)分割出的每個幕中對音頻提取梅爾頻率倒譜系數MFCC和對數梅爾能量LMFE特征,并計算MFCC特征和LMFE特征的一階差分和二階差分,得到每個幕的聲音特征;
5)對輸入視頻自動生成字幕,并根據時間軸對應到步驟1)分割出的每個幕上,采用BERT網絡生成幕的文字特征;
6)根據步驟2)和步驟3)中的場景軌跡和人物實體包圍框軌跡通過預訓練的C3D網絡計算實體的視覺特征,得到實體特征,并根據每兩個實體的聯合包圍框軌跡同樣計算實體對的視覺特征,得到實體對特征;
7)對每個實體對,將與實體對相關的幕的聲音特征、文字特征、實體的視覺特征和實體對的視覺特征連接起來并轉換到語義空間,結合由BERT模型對關系謂語生成的語義特征,通過小樣本學習結合零樣本學習的方式預測幕上該實體對的關系;
8)根據步驟7)預測的每幕上每個實體對間的關系,取與預定義的關系類別相似性度量大于0的為關系候選,構建整個視頻上的初步實體關系圖;
9)在步驟8)的基礎上,根據實體的類型、名稱和關系的類型調整關系預測概率,補充實體間的關系;
10)根據步驟9)構建的最終實體關系圖填充視頻知識圖,得到整個視頻上的實體關系圖,用于回答視頻理解的問題和查找兩個實體之間的關系路徑。
3.根據權利要求2所述的一種基于多模態特征融合的視頻深度關系分析方法,其特征是步驟1)所述的幕分割計算方法:
1.1)將長視頻分為多個鏡頭片段;
1.2)對步驟1.1)中的每個鏡頭分別根據場景模型、視覺模型和聲音模型提取特征;
1.3)利用步驟1.2)中提取的三種特征分別合并鏡頭片段為幕;
1.4)將步驟1.3)中根據三種特征的幕分割結果合并:
E=Ep∪Ev∪Ea
其中,E是最終視頻上的幕分割邊界集合,Ep是根據場景模型的幕分割邊界集合,Ev是根據視覺模型的幕分割邊界集合,Ea是根據聲音模型的幕分割邊界集合。
4.根據權利要求2所述的一種基于多模態特征融合的視頻深度關系分析方法,其特征是步驟2)中幕與每個場景的匹配點總數的計算方法為:
其中Ml表示場景l的匹配點總數,表示場景l的截圖ls的匹配點數,Sl為場景l的截圖集合,幕所對應的場景為的匹配點總數最高的場景。
5.根據權利要求2所述的一種基于多模態特征融合的視頻深度關系分析方法,其特征是步驟7)具體為:
7.1)將步驟4)中幕的聲音特征、步驟5)中幕的文字特征、步驟6)中兩個實體的視覺特征和步驟6)中實體對的視覺特征連接起來作為實體對在幕上的特征;
7.2)將步驟7.1)中得到的實體對幕特征經過線性變換轉換到語義空間;
7.3)將預定義的關系謂語描述通過BERT模型生成關系謂語語義特征;
7.4)根據實體對的幕特征基于小樣本學習結合零樣本學習的訓練方式,生成實體對的語義特征,小樣本結合零樣本學習訓練時損失函數的計算方法:
其中,L是總的損失函數,β表示實體對的語義特征,γ表示真實關系謂語語義特征,U表示非真實關系的集合,μi表示非真實關系i的特征,n表示非真實關系的數量;
7.5)計算實體對的語義特征與關系謂語語義特征的相似度作為實體對在幕上每種關系的概率,進而確定實體對間的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011038812.7/1.html,轉載請聲明來源鉆瓜專利網。





