[發明專利]動作識別方法、裝置及存儲介質有效
| 申請號: | 202110313465.2 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112818958B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 紀彬;尹澤強;孫新;熊超;章勇;曹李軍;陳衛東 | 申請(專利權)人: | 蘇州科達科技股份有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/46;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州謹和知識產權代理事務所(特殊普通合伙) 32295 | 代理人: | 徐磊 |
| 地址: | 215011 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動作 識別 方法 裝置 存儲 介質 | ||
本申請涉及一種動作識別方法、裝置及存儲介質,屬于動作識別技術領域,該方法包括:獲取圖像幀序列;將圖像幀序列輸入預先訓練的分類網絡,得到圖像幀序列對應的動作分類;分類網絡包括運動特征增強結構,運動特征增強結構用于提取相鄰兩幀圖像幀之間的前向運動特征差和后向運動特征差;圖像幀序列對應的動作分類結合前向運動特征差和后向運動特征差計算得到;可以解決僅考慮單向時序運動且僅考慮通道維度的增強時,動作識別方法的準確性和魯棒性不高的問題;通過充分利用時序的雙向運動信息,并加入到網絡結構中,可促使網絡提取到更強的運動特征,提高動作識別的準確性。
技術領域
本申請涉及一種動作識別方法、裝置及存儲介質,屬于動作識別技術領域。
背景技術
近些年來,互聯網上的視頻數據爆炸式地增長,這為視頻理解任務帶來了很大的難點,包括如何高精度地理解視頻內容以及較低可接受的時間復雜度。而隨著深度神經網絡技術在計算機視覺各個領域的飛速發展,使用深度學習網絡技術進行基于視頻的動作識別任務已然十分普遍。具體的應用方式大體上分為三種。
第一種應用方式是使用三維卷積層進行基于視頻的動作識別任務,三維卷積神經網絡可以共同學習時間和空間特征,近些年也有一些十分出色的工作。例如一些技術使用VGG模型的三維卷積神經網絡來學習視頻幀序列的時空特征,一些技術提出了對二維卷積層進行擴展,將Inception V1模型擴展為三維卷積層,并取得了不錯的效果。但是使用三維卷積神經網絡會導致計算量大、部署困難以及容易過擬合的問題,總體來說,這種方式的特點是精度高但時間復雜度高。
第二種應用方式是使用二維卷積層進行基于視頻的動作識別,例如一些技術使用了一種雙流二維卷積分別對時間和空間建模的動作識別方法,時間敏感網絡(Time-Sensitive Networking,TSN)利用二維卷積層提取空間信息,而后使用平均池化的方式來融合各段信息得到最終結果,總的來說,這種方式的特點是時間復雜度低但精確度不高。
第三種應用方式是多種卷積形式的混合來同時對視頻段空間和時間信息進行建模,以期望達到高精度低時間復雜度。近些年也出現了許多比較出色的工作,例如一些人探索了二維卷積同三維卷積的融合,首先使用三維卷積而后使用二維卷積以及先使用二維卷積后使用三維卷積的方式。存在一些工作為了減少計算量將三維卷積分解為二維空間卷積和一維時間卷積。存在工作基于二維卷積并只使用原始RGB圖像的特征偏移方式(TemporalShift Module,TSM),以達到二維卷積的低時間復雜度和三維卷積的高精度。用于時序建模的輕量級行為識別模型(Temporal Excitation and Aggregation for ActionRecognition,TEA)在時序特征偏移操作的基礎上,使用單向幀間特征差來在通道維度增強原始特征,在若干的公開數據集中取得了顯著的效果。
然而,現有的基于運動特征增強的動作分類方法,僅考慮單向時序運動且僅考慮通道維度的增強,因此不能充分利用時序前后幀之間的運動特征,并且忽略了運動特征在空間維度上的分布強弱,即空間上哪些特征應當增強,哪些特征不應當增強,從而導致動作識別方法不具備良好的準確性和魯棒性的問題。
發明內容
本申請提供了一種動作識別方法、裝置及存儲介質,可以通過充分利用時序的雙向運動信息,并加入到網絡結構中,可促使網絡提取到更強的運動特征,提高動作識別的準確性。本申請提供如下技術方案:
第一方面,提供一種動作識別方法,獲取圖像幀序列;
將所述圖像幀序列輸入預先訓練的分類網絡,得到所述圖像幀序列對應的動作分類;
其中,所述分類網絡包括運動特征增強結構,所述運動特征增強結構用于提取相鄰兩幀圖像幀之間的前向運動特征差和后向運動特征差;所述圖像幀序列對應的動作分類結合所述前向運動特征差和所述后向運動特征差計算得到。
可選地,所述前向運動特征差為:第i幀圖像幀的第一維度的圖像特征與第i+1幀圖像幀的平滑后的圖像特征之差;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州科達科技股份有限公司,未經蘇州科達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110313465.2/2.html,轉載請聲明來源鉆瓜專利網。





