[發明專利]一種基于深度卷積特征多通道金字塔池化的動作識別方法在審
| 申請號: | 201610997834.3 | 申請日: | 2016-11-11 |
| 公開(公告)號: | CN106845329A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 胡海峰;肖翔;李昊曦 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 特征 通道 金字塔 動作 識別 方法 | ||
技術領域
本發明涉及計算機視覺領域,更具體地,涉及一種基于深度卷積特征多通道金字塔池化的動作識別方法。
背景技術
科技的發展使得攝像設備得到了普及,數量巨大的視頻數據也隨之產生。同時,針對視頻的應用也應運而生:智能視頻監控、視頻數據分類、高級人機交互等。在這些應用中,針對人的動作進行理解是最核心的關注點,也是人們研究的核心內容。
由于人體動作識別有很大的潛在價值,所以此課題作為一個研究熱點已經持續了至少十年時間,很多種方法都被提出,例如:基于密集軌跡(DT)的方法、基于時空興趣點的方法以及基于卷積神經網絡(CNN)的方法等。其中,基于CNN的方法研究的人數最多,這種方法能夠取得目前最好的結果。然而,大多數深層CNN網絡都將單張卷積圖看成一個整體來用,而卷積圖中的局部信息往往被忽略,所以,我們的動作識別研究將會針對基于深度卷積特征多通道金字塔池化的動作識別方法以提取深度特征中的局部信息。
基于卷積神經網絡的方法的主要思想是:首先,對視頻采用多層的卷積層、池化層和全連接層,提取視頻的描述子特征;接下來將這些特征放入分類器中進行分類,以完成最終的識別過程。很多學者在這個基礎上進行了探索和改進。Annane等人提出了一種雙流卷積網絡用于動作識別,包括空間流和時間流網絡,空間流用于提取視頻幀的表觀特征,時間流用于提取視頻連續幀的運動特征,將二者進行融合,以此提升識別效果。Wang等人將深度卷積特征和人工特征進行融合,學習到深度特征和人工特征這兩種不同類型特征的優勢。以上方法都取得了較好的效果,但是現存的基于深度網絡的研究通常將單張深度特征圖作為一個整體來使用而忽略了深度特征中的局部信息,而這種線索對于提高基于深度網絡的識別準確率是有幫助的。
發明內容
為了克服上述現有技術的不足,本發明提供了一種基于深度卷積特征多通道金字塔池化的動作識別方法。該方法將視頻數據集的視頻作為輸入,進行視頻特征提取和識別,最后輸出視頻的分類結果,該方法具有簡單易實現,識別效果好的特點。
為了達到上述目的,本發明采用的技術方案是:
一種基于深度卷積特征多通道金字塔池化的動作識別方法,包括以下步驟:
(1)輸入待識別的視頻,采用two-stream深度網絡模型得到多通道深度卷積圖;其中two-stream網絡模型包括空間流(spatial-stream)深度網絡模型和時間流(temporal-stream)深度網絡模型。
具體是:對輸入視頻的每一幀采用空間流網絡,得到幀的表觀特征;對輸入視頻的每連續M幀,利用時間流網絡模型得到運動特征;其中空間流網絡和時間流網絡模型均包含5個卷積層,3個池化層,以及3個全連接層;
(2)對空間流深度網絡模型和時間流深度網絡模型得到的多通道深度特征圖采用4層空間金字塔結構,得到的每個局部塊用最大池化方法計算該塊的最大值表達,獲取特征圖在不同尺度下的局部信息;
(3)將深度特征圖中在相同時空位置的多通道局部塊的表達連接起來,形成視頻的特征描述子;
(4)對步驟(3)提取的描述子特征采用局部級聯描述子向量方法(VLAD)進行特征建模,形成該視頻最終的向量表示;
(5)采用支持向量機(SVM)進行特征分類,最終輸出分類結果,獲取視頻的動作識別結果,該方法在YouTube人體行為數據集上實現了93.1%的準確率。
本發明基于深度卷積神經網絡方法,并且通過探索深度特征圖中的局部信息,提出了一種新的深度特征多通道金字塔池化描述子,它能夠有效地獲取特征圖在不同尺度下的局部信息,并且結合了局部級聯描述子向量,顯著提高了動作識別的準確率。
優選的,步驟(1)中,空間流和時間流深度網絡模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個通道的深度特征圖,獲取更具抽象的圖像特征表達。
優選的,步驟(2)中,選取空間流深度網絡模型的第5層卷積層的輸出特征圖以及時間流深度網絡模型的第4層卷積層的輸出特征圖來進行空間金字塔的操作,對多通道深度特征圖采用4層金字塔結構,其中4層金字塔結構為(1×1,2×2,3×3,4×4),其中第一層(1×1)對應的是整個多通道深度特征圖,第4層(4×4)對應的是多通道深度特征圖最大尺度下的局部塊,因此通過金字塔結構得到多通道深度特征圖位于不同尺度下的局部塊,對每個局部塊采用最大池化方法,計算塊中最大值作為該局部塊的特征表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610997834.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種加熱器保護裝置
- 下一篇:一種用于無線充電的低電場發射端線圈





