[發明專利]基于空間時序特征的視頻自然語言文本檢索方法在審
| 申請號: | 202110968279.2 | 申請日: | 2021-08-23 |
| 公開(公告)號: | CN113704546A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 王笛;田玉敏;羅雪梅;丁子芮;萬波;王義峰;趙輝 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/783;G06F16/33;G06F40/30;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 空間 時序 特征 視頻 自然語言 文本 檢索 方法 | ||
1.一種基于空間時序特征的視頻文本檢索方法,其特征在于,利用三種神經網絡分別提取視頻樣本三層級的空間時序特征,構建視頻文本公共語義嵌入網絡擬合跨模態數據的語義鴻溝并利用對比排序損失函數訓練網絡;該方法的具體步驟包括如下:
步驟1,生成樣本集:
選取至少6000個待檢索的多類別動態行為視頻及與其對應的自然語言文本注釋組成樣本集,每個視頻中含有人工標注的自然語言文本注釋至少20條,自然語言文本字數不超過30字,生成至少120000對視頻自然語言文本對;
步驟2,利用三種神經網絡分別提取視頻樣本三層級的空間時序特征:
(2a)將樣本集中的視頻輸入到訓練好的深度殘差神經網絡ResNet-152中,提取每個視頻中每幀圖像的特征,將每個視頻中所有幀的圖像特征進行平均池化,將輸出的視頻2048維的幀級特征作為視頻第一層級特征;
(2b)使用訓練好的3D卷積神經網絡I3D提取樣本集每個視頻沿時序的動態行為特征,將輸出的視頻1024維的時序特征作為視頻第二層級特征;
(2c)每隔2秒從樣本集的每個視頻中抽取一幀圖像,將該視頻抽取的所有幀圖像輸入到訓練好的Fast-RCNN網絡中,輸出該視頻Fa*Mab*2048維的高維顯著特征,其中,Fa表示第a個視頻抽取的幀的總數,Mab表示第a個視頻抽取的第b幀提取的顯著區域的總數,每幀提取的顯著區域的總數相同;
(2d)使用全局自適應池化方法AdaptiveAvgPool2d沿幀流動的方向處理每個視頻的高維顯著特征,將輸出的視頻降維后保留顯著區域及其位置信息的t*2048維空間對象特征作為視頻第三層級特征,t為設置的保留顯著區域的總數,默認設置為6;
步驟3,構建語義角色樹提取自然語言文本樣本三層級的特征:
(3a)將樣本集中的所有自然語言文本輸入到雙向長短期記憶網絡Bi-LSTM中,每個單詞輸出為512維的單詞嵌入特征,將自然語言文本所有單詞的嵌入特征級聯,得到Nc*512維自然語言文本上下文感知的嵌入特征,其中,Nc表示第c個自然語言文本中單詞的總數;
(3b)利用注意力公式,計算每個自然語言文本的顯著事件特征;
(3c)使用開源的語義角色解析工具,按自然語言文本單詞的順序,標注樣本集中每個自然語言文本的所有單詞的語義角色和語義關系;
(3d)將每個自然語言文本的語義角色為動詞的單詞和語義角色為名詞的單詞,分別輸入到兩個訓練好的雙向長短期記憶網絡Bi-LSTM中,兩個網絡分別輸出該自然語言文本Vs*300維的動詞序列特征和Es*300維對象序列特征,其中,Vs表示第s個自然語言文本中語義角色為動詞的單詞的總數,Es表示第s個自然語言文本中語義角色為名詞的單詞的總數;
(3e)構建每個自然語言文本的語義角色樹,其根節點表示自然語言文本的顯著事件特征,與根節點相連的第二層動作節點表示自然語言文本的動詞序列特征,與動作節點相連的樹結構末端的實體結點表示自然語言文本的對象序列特征;
(3f)利用訓練好的圖卷積神經網絡GCN,提取語義角色樹根節點1024維的自然語言文本全局特征作為自然語言文本第一層級特征,提取語義角色樹動作節點Vs*1024維的自然語言文本動作時序特征作為自然語言文本第二層級特征,提取語義角色樹實體節點Es*1024維的自然語言文本實體特征作為自然語言文本第三層級特征;
步驟4,構建視頻文本公共語義嵌入網絡:
(4a)搭建一個由卷積層、池化層、第一全連接層和第二全連接層的視頻文本公共語義嵌入網絡;
(4b)將卷積層的卷積核大小設置為2×2,個數設置為2048,步長設置為1,池化層采用最大池化方式,池化層的卷積池化核大小設置的為2×2,步長設置為2;第一全連接層的輸入節點個數和輸出節點個數均設置為2048,第二全連接層的輸入節點個數設置為2048、輸出節點個數設置為1024,網絡的初始學習率設置為e-4,網絡的神經元丟棄率設置為0.2;
步驟5,訓練視頻文本公共語義嵌入網絡:
(5a)分別將視頻的三層級特征和自然語言文本的三層級特征,輸入到視頻文本公共語義嵌入網絡中,輸出每一層級視頻和自然語言文本擬合底層流形結構的同維度、同分布的特征;
(5b)按照下式,計算每個視頻與所有視頻自然語言文本對中的每個自然語言文本的特征相似度:
其中,s(vj,tk)表示第j個視頻vj與所有視頻自然語言文本對中的第k個自然語言文本tk的特征相似度,l表示特征層級的總數,i表示特征層級的序號,wc表示訓練網絡得到的每個層級相似度的權重,cos表示求余弦值操作,表示第j個視頻第l層級的特征,表示第k個自然語言文本第l層級的特征,l的取值范圍為[1,3];
(5c)將所有的特征相似度組成視頻自然語言文本樣本對的相似度矩陣;
(5d)利用對比排序損失函數,計算相似度矩陣對角線的每個視頻自然語言文本正樣本對的對比排序損失函數值;
(5e)根據對比排序損失函數值,迭代更新視頻文本公共語義嵌入網絡,以等差的方式在合理范圍內更新網絡的學習率、神經元丟棄率、每個層級相似度的權重和對比排序損失函數的閾值,直到對比排序損失函數收斂至最小,得到訓練好的視頻文本公共語義嵌入網絡;
步驟6,對視頻和自然語言文本進行跨模態互檢索:
(6a)采用與步驟2和步驟3相同的方法,分別提取待檢索視頻和自然語言文本的三層級特征;
(6b)采用與步驟4相同的方法,將待檢索的視頻和自然語言文本的三層級特征輸入訓練好的視頻文本公共語義嵌入網絡,計算待檢索的視頻和自然語言文本的相似度;
(6c)根據視頻和自然語言文本的相似度,輸出按相似度大小排序的檢索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110968279.2/1.html,轉載請聲明來源鉆瓜專利網。





