[發明專利]一種面向事件關系編碼的視頻中多事件自然語言描述方法有效
| 申請號: | 201810558731.6 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108960063B | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 袁春;楊大力 | 申請(專利權)人: | 清華大學深圳研究生院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 深圳新創友知識產權代理有限公司 44223 | 代理人: | 徐羅艷 |
| 地址: | 518055 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 事件 關系 編碼 視頻 多事 自然語言 描述 方法 | ||
1.一種面向事件關系編碼的視頻中多事件自然語言描述方法 ,包括以下步驟:
S1、采用一三維卷積神經網絡,對給定的視頻序列提取深度特征,得到若干個深度特征向量,構成一深度特征序列;
S2、基于所述深度特征序列,采用循環神經網絡作為時序分析方法計算所述視頻序列中事件的提議起止區間;
S3、選定所述視頻序列中需要進行描述的待描述事件,并根據所述事件的提議起止區間,對所述待描述事件在所述深度特征序列中對應的子序列進行再編碼,得到所述待描述事件的描述子;
S4、采用基于注意力模型的LSTM自適應解碼器對所述描述子進行解碼,得到用于描述所述待描述事件的自然語言。
2.如權利要求1所述的自然語言描述方法 ,其特征在于,步驟S1具體包括:
S11、對所述視頻序列,取固定長度的連續的幀為一簇,以固定間隔對每一個簇采樣,得到簇序列;
S12、對所述簇序列中的每一個簇,采用三維卷積神經網絡提取簇的深度特征向量,得到所述視頻序列的所述深度特征序列,記為其中,v1,v2,…,vn為每一個簇對應的深度特征向量。
3.如權利要求2所述的自然語言描述方法 ,其特征在于,步驟S2具體包括:
S21、采用LSTM對所述深度特征序列進行序列到序列的編碼,得到長度與所述深度特征序列相同的隱向量序列
S22、對所述隱向量序列中的每一個隱向量,使用兩個全連接層分別監測不同事件對應的時間戳和置信度,得到所述事件的提議起止區間。
4.如權利要求3所述的自然語言描述方法 ,其特征在于,步驟S3具體包括:
S31、通過人工指定不同事件的時間戳,或者根據步驟S22中的所述置信度,取置信度大于一設定閾值的時間戳,來選定所述待描述事件;
S32、根據所述視頻序列的總長度和待描述事件i的提議起止區間,得到待描述事件i在所述深度特征序列中對應的子序列;
S33、對待描述事件i所對應的子序列,采用m種步長的LSTM再次進行序列到序列的編碼,得到m組隱向量和m個狀態向量;
S34、將待描述事件i的m組隱向量池化至相同尺寸并沿隱向量的序列方向拼接為一組新的隱向量同時將m個狀態向量取平均得到從而,得到待描述事件i的事件內描述子
S35、根據待描述事件i的事件內描述子的將所有待描述事件按照在所述視頻序列中的時間先后來排序,然后,對待描述事件i之前的事件和之后的事件分別使用不同的LSTM前向和后向地計算事件的上文和下文,并將兩個LSTM的前向和后向計算結果合并作為待描述事件i的事件間描述子gi,從而得到待描述事件i的描述子:
和分別表示所述兩個LSTM的狀態向量,分別作為待描述事件i的上文和下文的描述子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳研究生院,未經清華大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810558731.6/1.html,轉載請聲明來源鉆瓜專利網。





