[發明專利]基于多特征融合和時空注意力機制相結合的視頻描述方法有效
| 申請號: | 201810110287.1 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN108388900B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 李楚怡;余衛宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 融合 時空 注意力 機制 相結合 視頻 描述 方法 | ||
1.基于多特征融合和時空注意力機制相結合的視頻描述方法,其特征在于,包括如下步驟:
S1、對待描述視頻提取多種基于卷積神經網絡的特征,包括物體、場景、行為動作、光流以及3D卷積特征;
S2、將上一步獲得的多種特征融合拼接成一個特征向量;
S3、利用基于時空注意力機制的雙向長短時記憶網絡確定視頻的語義編碼表達;
S4、將上一步獲得的語義編碼輸入到基于單向的長短時記憶網絡模型進行特征解碼,從而獲得與所述視頻對應的自然語言描述句子。
2.根據權利要求1所述的基于多特征融合和時空注意力機制相結合的視頻描述方法,其特征在于,步驟S1中所述對待描述視頻提取物體、場景、行為動作、光流以及3D卷積特征具體為:
S1.1、對于物體、場景和行為動作特征的提取步驟具體為:
S1.1.1、首先對待描述視頻按照指定的幀頻fps進行分幀,并隨機抽取其中的多幀圖像用于下一步作特征提?。?/p>
S1.1.2、將采樣幀分別輸入到ImageNet、Places365、UCF-101這三個數據集預訓練好的GoogleNet模型提取pool5層的特征,最終得到三個1024維的特征向量;
S1.2、對于3D卷積特征的提取步驟具體為:
S1.2.1、將UCF-101數據集的視頻流輸入到ResNet18的網絡中進行訓練并保存分類性能好于一定閾值的中間模型的參數;
S1.2.2、將待描述視頻輸入上一步保存的模型中提取網絡結構中pool5層的特征用于表示3D卷積特征,得到一個512維的特征向量;
S1.3、對于光流特征的提取步驟具體為:
S1.3.1、分別計算視頻每相鄰兩幀的x方向和y方向上的光流特征值,并歸一化到[0,255]的像素范圍;
S1.3.2、計算光流的幅度值,并結合上一步獲得的光流特征值組合成一張光流圖;
S1.3.3、利用生成的光流圖訓練一個卷積神經網絡GoogleNet,并提取pool5層的特征作為光流特征向量,得到一個1024維的特征向量。
3.根據權利要求1所述的基于多特征融合和時空注意力機制相結合的視頻描述方法,其特征在于,步驟S2中將上一步獲得的多種特征融合拼接成一個特征向量的具體步驟如下:
S2.1、對步驟S1獲得的物體、場景、動作、光流特征和3D卷積特征進行直接拼接,如果用F表示特征,拼接M種模型提取的特征,對于每種模型生成的特征用Fi表示,選取這些特征的組合直接拼接得到的融合特征為Ffusion,則融合特征可表示為公式(1-1):
Ffusion=(F1,F2,…,Fm) (1-1)
S2.2、對拼接的多維特征向量進行主成分分析PCA降維,最終保留1024維特征向量。
4.根據權利要求1所述的基于多特征融合和時空注意力機制相結合的視頻描述方法,其特征在于,步驟S3中利用基于時空注意力機制的雙向長短時記憶網絡確定視頻的語義編碼表達,具體為:
S3.1、引入時空注意力機制分為時間注意力機制和空間注意力機制;
S3.2、雙向長短時記憶網絡作為特征編碼器對步驟S2中得到的視覺特征進行編碼,在編碼生成的隱藏層變量中引入步驟S3.1中的時空注意力機制加權確定最終的特征編碼表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810110287.1/1.html,轉載請聲明來源鉆瓜專利網。





