[發(fā)明專利]利用對抗雙向交互網絡解決視頻時間文本定位任務的方法有效
| 申請?zhí)枺?/td> | 201910093894.6 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109815927B | 公開(公告)日: | 2021-04-23 |
| 發(fā)明(設計)人: | 趙洲;成瑀 | 申請(專利權)人: | 杭州一知智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 無錫市匯誠永信專利代理事務所(普通合伙) 32260 | 代理人: | 王闖 |
| 地址: | 311200 浙江省杭州市蕭山*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 對抗 雙向 交互 網絡 解決 視頻 時間 文本 定位 任務 方法 | ||
1.利用對抗雙向交互網絡解決視頻時間文本定位任務的方法,用于解決視頻時間文本定位任務,其中視頻時間文本定位任務包括用戶輸入的文本描述,由幀圖像組成的視頻,其特征在于包括如下步驟:
1)設計一種雙向交互網絡,基于視頻的每個幀圖像和輸入的文本描述,獲取與文本相關的視頻幀級別的相關度分布及整個相關程度分布中具有最大聯(lián)合相關程度的視頻目標片段;
2)利用步驟1)中獲取的與文本相關的視頻幀級別的相關程度分布及整個相關程度分布中具有最大聯(lián)合相關程度的視頻目標片段,設計一種輔助判別網絡,驗證步驟1)獲取的與文本相關的視頻目標片段的準確性,并利用對抗訓練過程提高視頻時間文本定位的效果;
3)利用步驟1)設計的雙向交互網絡與步驟2)設計的輔助判別網絡,進行訓練,利用訓練出的雙向交互網絡及輔助判別網絡獲取與文本描述相關的視頻片段,
其中所述步驟1),具體為:
對于視頻時間文本定位任務中視頻的每個幀圖像輸入到提前訓練好的3維卷積網絡中,獲取視頻的幀級別表達v=(v1,v2,...,vn),其中vi代表視頻中的第i個幀的幀級別表達,n代表視頻中的幀個數(shù);將視頻中各個幀的幀級別表達v=(v1,v2,...,vn)依次輸入到雙向LSTM網絡中,按照如下公式計算得到視頻各個幀的語義表達
其中,與分別代表雙向LSTM網絡中的前向LSTM網絡計算與后向LSTM網絡計算,與代表前向LSTM網絡計算第i次循環(huán)的隱層輸出與狀態(tài)值,與代表后向LSTM網絡計算第i次循環(huán)的隱層輸出與狀態(tài)值,代表視頻中的第i個幀的語義表達,代表將與進行連接計算;
對于視頻時間文本定位任務中的輸入的文本描述,將文本描述中的各個單詞利用單詞映射的方式,獲得文本中各個單詞的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j個單詞的映射向量,m代表文本中的單詞個數(shù);將文本中各個單詞的映射向量s=(s1,s2,...,sm)依次輸入到雙向LSTM網絡中,按照如下公式計算得到文本各個單詞的語義表達
其中,與分別代表雙向LSTM網絡中的前向LSTM網絡計算與后向LSTM網絡計算,與代表前向LSTM網絡計算第j次循環(huán)的隱層輸出與狀態(tài)值,與代表后向LSTM網絡計算第j次循環(huán)的隱層輸出與狀態(tài)值,代表文本中的第j個單詞的語義表達,代表將與進行連接計算;
利用得到的視頻各個幀的語義表達與文本各個單詞的語義表達利用如下公式計算得到視頻文本注意力矩陣M,M為n×m維矩陣,
其中,與代表可訓練的權重向量,bm代表可訓練的偏置向量,代表可訓練的權重向量wm的轉置,tanh()代表雙曲正切函數(shù),Mij代表矩陣M第i行j列的元素;
利用得到的視頻文本注意力矩陣M,按照如下公式計算得到視頻到文本矩陣Mrow與文本到視頻矩陣Mcol,其中Mrow與Mcol均為n×m維矩陣,
其中,代表矩陣Mrow的第i行j列的元素,代表矩陣Mcol的第i行j列的元素,exp()代表以自然底數(shù)e為底的指數(shù)運算函數(shù);
利用得到的視頻到文本矩陣Mrow與文本到視頻矩陣Mcol,按照如下公式計算得到視頻自注意力矩陣D,D為n×n維矩陣,
其中,代表矩陣Mcol的轉置矩陣;
利用得到的視頻自注意力矩陣D與視頻各個幀的語義表達按照如下公式計算得到視頻利用文本指引的語義表達
其中,代表視頻第i幀對應的文本指引的自注意力輸出,代表將與進行連接計算;
利用得到的視頻到文本矩陣Mrow與文本到視頻矩陣Mcol,按照如下公式計算得到文本自注意力矩陣L,L為m×m維矩陣,
其中,代表矩陣Mcol的轉置矩陣;
利用得到的文本自注意力矩陣L與文本各個單詞的語義表達按照如下公式計算得到文本利用視頻指引的語義表達
其中,代表文本第i個單詞對應的視頻指引的自注意力輸出,代表將與進行連接計算;
利用得到的視頻利用文本指引的語義表達與文本利用視頻指引的語義表達按照如下公式計算得到注意力矩陣S,S為n×m維矩陣,
其中,與代表可訓練的權重向量,bs代表可訓練的偏置向量,代表可訓練的權重向量wS的轉置,tanh()代表雙曲正切函數(shù),Sij代表矩陣S第i行j列的元素;
利用得到的視頻利用文本指引的語義表達文本利用視頻指引的語義表達注意力矩陣S,按照如下公式計算得到多模態(tài)混合表達
其中,softmax(Sij)代表對于注意力矩陣S中的第i行j列的元素Sij,在矩陣S于列方向做softmax計算后的值;代表與視頻第i幀相關的聚合文本表達,代表多模態(tài)混合表達Hf第i維的表達,wf代表可訓練的權重向量,bf代表可訓練的偏置向量,代表按元素相乘;
將得到的多模態(tài)混合表達依次輸入到雙向LSTM網絡中,得到多模態(tài)上下文表達利用如下公式計算得到視頻幀級別的相關程度分布pf為n維向量,
其中,代表可訓練的權重向量wf的轉置,bf代表可訓練的偏置值,σ()代表sigmoid函數(shù)計算;
利用得到的視頻幀級別的相關程度分布按照如下公式計算得到擁有最大聯(lián)合相關程度的視頻目標片段的起始位置與結尾位置
其中,pin代表在選取的視頻目標片段內幀的聯(lián)合相關程度,pout代表在選取的視頻目標片段外幀的聯(lián)合負相關程度,與代表視頻幀級別的相關程度分布pf中第j維與第k維的值;
利用訓練數(shù)據中真實的與文本描述相關的視頻片段情況,得到真實的視頻幀級別的相關程度分布其中代表視頻的第i幀在真實的與文本描述相關的視頻片段中,代表視頻的第i幀不在真實的與文本描述相關的視頻片段中;
利用得到的視頻幀級別的相關程度分布與真實的視頻幀級別的相關程度分布按照如下公式計算得到視頻時間文本定位的損失函數(shù)Lloc(θ),
其中l(wèi)og代表對數(shù)函數(shù)運算,Li代表視頻第i幀對應的損失函數(shù)值;
在利用上述方法獲得雙向交互網絡Gθ(v,s)后,可以得到視頻幀級別的相關程度分布與擁有最大聯(lián)合相關程度的視頻目標片段的起始位置與結尾位置
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州一知智能科技有限公司,未經杭州一知智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910093894.6/1.html,轉載請聲明來源鉆瓜專利網。





