[發明專利]視頻動作識別方法及裝置、電子設備和存儲介質在審
| 申請號: | 201810387535.7 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN108681695A | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 趙岳;熊元駿;林達華;湯曉鷗 | 申請(專利權)人: | 北京市商湯科技開發有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 北京思源智匯知識產權代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動作分支 底層特征 動作識別 視頻 存儲介質 電子設備 視覺 待檢測區域 連續圖像幀 分支處理 檢測區域 融合處理 視頻動態 特征提取 預測結果 分類 檢測 共享 預測 網絡 | ||
本發明實施例公開了一種視頻動作識別方法及裝置、電子設備和存儲介質,其中的方法包括:基于待檢測視頻中的連續圖像幀,得到待檢測區域;對待檢測區域進行特征提取,得到視覺底層特征;將視覺底層特征拆分為至少一個動作分支特征,并依據各個動作分支特征對應的動作分支識別網絡分別對各個動作分支特征進行分類預測;對各個動作分支特征的分類預測結果進行融合處理,得到待檢測視頻的動作識別結果。本發明實施例基于共享的底層特征,在不同分支處理不同成分的信息,增強了對視頻動態的表達能力。
技術領域
本發明涉及技術圖像處理技術領域,尤其是一種視頻動作識別方法及裝置、電子設備和存儲介質。
背景技術
視頻中的動作識別在實際應用中具有巨大的潛力,因而在近些年得到了巨大關注。有別于基于圖像的物體識別任務,視頻中的動作識別任務需要研究圖像的動態特征,也就是視覺內容隨著時間發生的變化。
發明內容
本發明實施例提供一種視頻動作識別的技術方案。
本發明實施例提供的一種視頻動作識別方法,包括:
基于待檢測視頻中的連續圖像幀,得到待檢測區域;
對所述待檢測區域進行特征提取,得到視覺底層特征;
將所述視覺底層特征拆分為至少一個動作分支特征,并依據各個動作分支特征對應的動作分支識別網絡分別對所述各個動作分支特征進行分類預測;
對所述各個動作分支特征的分類預測結果進行融合處理,得到所述待檢測視頻的動作識別結果。
在一種可選方式中,所述動作分支特征包括靜態外貌特征、表觀動作特征、外貌變化特征中的任一項或多項組合。
在一種可選方式中,
所述方法還包括:訓練所述靜態外貌特征對應的動作分支識別網絡;
所述訓練所述靜態外貌特征對應的動作分支識別網絡包括:
基于視頻樣本的樣本視覺底層特征,通過重復二維卷積、二維池化及時域池化的操作,從樣本視覺底層特征中提取出外貌靜態特征;
根據所述外貌靜態特征對卷積神經網絡進行分類訓練,得到所述靜態外貌特征對應的動作分支識別網絡。
在一種可選方式中,
所述方法還包括:訓練所述表觀動作特征對應的動作分支識別網絡;
所述訓練所述表觀動作特征對應的動作分支識別網絡包括:
基于視頻樣本的樣本視覺底層特征,通過基于逐像素相關構造代價體,并從代價體中推導出每個像素的運動場,從而得到所述表觀動作特征;
根據所述表觀動作特征對卷積神經網絡進行分類訓練,得到所述表觀動作特征對應的動作分支識別網絡。
在一種可選方式中,所述從代價體中推導出每個像素的運動場包括:
針對所述代價體,根據匹配相似度,確定出每個像素的運動場;和/或,
根據代價體每個像素的強度計算出加權系數,并根據所述加權系數計算出每個像素的期望位移,從而確定出每個像素的運動場。
在一種可選方式中,
所述方法還包括:訓練所述外貌變化特征對應的動作分支識別網絡;
所述訓練所述外貌變化特征對應的動作分支識別網絡包括:
基于視頻樣本的樣本視覺底層特征,通過運動場補償差值的方式,得到所述外貌變化特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京市商湯科技開發有限公司,未經北京市商湯科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810387535.7/2.html,轉載請聲明來源鉆瓜專利網。





