[發明專利]一種基于預編碼語義特征的視頻描述生成方法有效
| 申請號: | 202010031617.5 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111259197B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 覃征;黃凱;王國龍;徐凱平;葉樹雄 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/738 | 分類號: | G06F16/738;G06F16/732;G06F16/783;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 預編 語義 特征 視頻 描述 生成 方法 | ||
1.一種基于預編碼語義特征的視頻描述生成方法,其特征在于,包括以下步驟:
對視頻進行抽幀處理,并生成光流圖;
利用152層的殘差網絡抽取視頻的全局RGB特征;
利用多模態融合網絡抽取視頻的全局動作特征;
利用快速區域對象識別卷積神經網絡識別出視頻中的對象集,建立向量空間模型,將對象集轉為局部對象特征;
將三種特征拼接生成預編碼語義特征,輸入長短期記憶網絡進而生成輸入視頻的描述;
其中,所述利用多模態融合網絡抽取視頻的全局動作特征的具體方法為:
在公開數據集UCF101上訓練TSN網絡;
在公開數據集UCF101上訓練C3D網絡;
將抽取好的幀和光流圖輸入訓練好的TSN網絡和C3D網絡中,分別得到TSN分數特征和C3D分數特征;
將TSN分數特征和C3D分數特征進行線性融合,得到多模態融合網絡分數特征,稱為全局動作特征;
所述將抽取好的幀和光流圖輸入訓練好的TSN網絡和C3D網絡中,分別得到TSN分數特征和C3D分數特征的具體方法為:
將所有的幀分成8段,每段取中間一幀,輸入TSN空間網絡,得到TSN空間網絡分數特征;
將TVL1光流圖和warped TVL1光流圖分別分成8段,每段取中間5張x方向光流圖和y方向光流圖,輸入TSN時間網絡,分別得到TSN時間網絡TVL1分數特征和warped TVL1分數特征;
將TSN空間網絡分數特征和TSN時間網絡分數特征進行線性融合,得到TSN網絡分數特征;
將所有的幀每16幀為一段,輸入C3D網絡,得到C3D分數特征。
2.根據權利要求1所述基于預編碼語義特征的視頻描述生成方法,其特征在于,所述對視頻進行抽幀處理,并生成光流圖的具體方法為:
利用ffmpeg對視頻進行抽幀處理,然后對相鄰的每兩幀抽取TVL1和warped TVL1光流圖。
3.根據權利要求1所述基于預編碼語義特征的視頻描述生成方法,其特征在于,所述利用152層的殘差網絡抽取視頻的全局RGB特征的具體方法為:
在公開數據集ImageNet上訓練152層殘差網絡,即ResNet152;
使用ResNet152分別預測視頻中抽出的幀,將網絡的最后一個卷積層作為特征;
將得到的特征取平均得到視頻的全局RGB特征。
4.根據權利要求3所述基于預編碼語義特征的視頻描述生成方法,其特征在于,所述使用ResNet152分別預測視頻中抽出的幀的具體方法為:
將所有的幀等分成8段;
每段取最中間一幀;
使用ResNet152預測這8幀。
5.根據權利要求1所述基于預編碼語義特征的視頻描述生成方法,其特征在于,所述利用快速區域對象識別卷積神經網絡識別出視頻中的對象集,建立向量空間模型,將對象集轉為局部對象特征的具體方法為:
在公開數據集COCO上訓練快速區域對象識別卷積神經網絡,即Faster R-CNN;
使用Faster R-CNN對視頻中的幀進行對象識別,建立向量空間模型,將識別出的對象集轉為局部對象特征。
6.根據權利要求5所述基于預編碼語義特征的視頻描述生成方法,其特征在于,使用Faster R-CNN對視頻中的幀進行對象識別,建立向量空間模型,將識別出的對象集轉為局部對象特征的具體方法為:
將所有的幀分為8段,每段取中間一幀,使用Faster R-CNN識別出分數大于0.8的對象;
由于對象類別數為80,故建立80維特征向量,圖像中出現某類別,則在特征向量中對應位置加1;
將8個特征向量求平均,得到局部對象特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010031617.5/1.html,轉載請聲明來源鉆瓜專利網。





