[發明專利]基于多特征融合和時空注意力機制相結合的視頻描述方法有效
| 申請號: | 201810110287.1 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN108388900B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 李楚怡;余衛宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 融合 時空 注意力 機制 相結合 視頻 描述 方法 | ||
本發明公開了一種基于多特征融合和時空注意力機制相結合的視頻描述方法,首先對待描述視頻提取多種基于卷積神經網絡的特征,包括物體、場景、行為動作以及光流等特征,并將這些特征融合拼接成一個特征向量,然后基于時空注意力機制的雙向長短時記憶網絡確定視頻的語義編碼表達,最后輸入到單向長短時記憶網絡模型進行特征解碼,從而獲得與所述視頻對應的自然語言描述句子。本發明對待描述視頻分別提取了物體、場景以及運動特征,表征了視頻的對象信息與對象之間的關系以及運動信息,同時考慮到視頻在空間維度和時間維度上的變化,利用3D卷積特征進一步捕捉到視頻流的運動信息。
技術領域
本發明涉及視頻描述、深度學習技術領域,特別涉及一種基于多特征融合和時空注意力機制相結合的視頻描述方法。
背景技術
在移動互聯網普及和大數據時代的背景下,互聯網多媒體數據如圖片、視頻呈爆發式增長中,計算機視覺已成為當今的熱門研究領域,以往完全依賴人工對圖片、視頻進行標注和描述的任務效率十分低,幾乎不可能完成。因此,對于視頻自動描述方法的研究具有十分高的應用價值和現實意義。
讓機器能夠高效自動地對視頻做出描述,在視頻檢索、人機交互、智能安防、虛擬現實等領域也有著廣泛的應用前景,這將進一步促進人們對視頻的語義描述的研究。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供一種基于多特征融合和時空注意力機制相結合的視頻描述方法,對待描述視頻分別提取了物體、場景以及運動特征,表征了視頻的對象信息與對象之間的關系以及運動信息,同時考慮到視頻在空間維度和時間維度上的變化,利用3D卷積特征進一步捕捉到視頻流的運動信息。
本發明的目的通過以下的技術方案實現:一種基于多特征融合和時空注意力機制相結合的視頻描述方法,具體包括如下步驟:
S1、對待描述視頻提取多種基于卷積神經網絡的特征,包括物體、場景、行為動作、光流以及3D卷積特征;
S2、將上一步獲得的多種特征融合拼接成一個特征向量;
S3、利用基于時空注意力機制的雙向長短時記憶網絡確定視頻的語義編碼表達;
S4、將上一步獲得的語義編碼輸入到基于單向的長短時記憶網絡模型進行特征解碼,從而獲得與所述視頻對應的自然語言描述句子。
優選的,步驟S1中所述對待描述視頻提取物體、場景、行為動作、光流以及3D卷積特征具體為:
S1.1、對于物體、場景和行為動作特征的提取步驟具體為:
S1.1.1、首先對待描述視頻按照指定的幀頻fps進行分幀,并隨機抽取其中的80幀圖像用于下一步作特征提取;
S1.1.2、將采樣幀分別輸入到ImageNet、Places365、UCF-101這三個數據集預訓練好的GoogleNet模型提取pool5層的特征,最終得到三個1024維的特征向量;
S1.2、對于3D卷積特征的提取步驟具體為:
S1.2.1、將UCF-101數據集的視頻流輸入到ResNet18的網絡中進行訓練并保存分類性能好于一定閾值的中間模型的參數;
S1.2.2、將待描述視頻輸入上一步保存的模型中提取網絡結構中pool5層的特征用于表示3D卷積特征,得到一個512維的特征向量;
S1.3、對于光流特征的提取步驟具體為:
S1.3.1、分別計算視頻每相鄰兩幀的x方向和y方向上的光流特征值,并歸一化到[0,255]的像素范圍;
S1.3.2、計算光流的幅度值,并結合上一步獲得的光流特征值組合成一張光流圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810110287.1/2.html,轉載請聲明來源鉆瓜專利網。





