[發明專利]基于梯度邊界圖和多模卷積融合的動作識別方法及系統有效
| 申請號: | 201710018537.4 | 申請日: | 2017-01-10 |
| 公開(公告)號: | CN108288016B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 胡瑞敏;陳軍;陳華鋒;李紅陽;徐增敏;吳華;柴笑宇;柯亨進;馬寧 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 胡艷 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 梯度 邊界 卷積 融合 動作 識別 方法 系統 | ||
1.基于梯度邊界圖和多模卷積融合的動作識別方法,其特征是,包括步驟:
S1對原始視頻進行采樣,獲取代表幀fp,從原始視頻中取fp、fp的前s幀圖像和fp的后s幀圖像構成連續幀集Sp=[fp-s,…,fp,…,fp+s];s為經驗值,其取值范圍為5~10;所述的原始視頻為原始視頻訓練樣本或待識別原始視頻;
S2計算Sp中相鄰兩幀圖像間的梯度邊界值得到梯度邊界矩陣,根據梯度邊界矩陣獲得梯度邊界圖集;所述的梯度邊界矩陣Ptx和Pty分別表示ft和其后續相鄰的幀圖像ft+1間分別在圖像橫向方向和圖像縱向方向的梯度邊界矩陣,t=p-s,p-s+1,...,p+s-1;
Ptx由元素Ptx(u,v)構成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐標;Ptx(u,v)表示ft中像素(u,v)在圖像橫向方向的梯度邊界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;
Pty由元素Pty(u,v)構成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐標;Pty(u,v)表示ft中像素(u,v)在圖像縱向方向的梯度邊界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;
S3計算連續幀集Sp中相鄰兩幀圖像間的幀間光流,從而獲得光流圖集;所述的光流圖集oftx和ofty表示ft和ft+1分別在圖像橫向方向和圖像縱向方向的幀間光流,t=p-s,p-s+1,...,p+s-1;
S4采用各原始視頻訓練樣本的代表幀、梯度邊界圖集和光流圖集訓練卷積神經網絡;以各原始視頻訓練樣本和待識別原始視頻的代表幀、梯度邊界圖集和光流圖集為輸入,采用訓練后的卷積神經網絡獲得各原始視頻訓練樣本和待識別原始視頻的代表幀CNN特征Crgb、梯度邊界CNN特征Cgbf和光流CNN特征Cof;
S5采用各原始視頻訓練樣本的Crgb、Cgbf和Cof訓練融合公式Cfusion=ycat*k+b中參數k和b,其中,k為卷積核參數;b為偏置參數;ycat=[Cgbf,Crgb,Cof];采用訓練后的融合公式融合待識別原始視頻的Crgb、Cgbf和Cof,得到融合特征Cfusion;
S6基于融合特征Cfusion,采用動作分類算法進行動作識別。
2.基于梯度邊界圖和多模卷積融合的動作識別系統,其特征是,包括:
連續幀集構成模塊,用來對原始視頻進行采樣,獲取代表幀fp,從原始視頻中取fp、fp的前s幀圖像和fp的后s幀圖像構成連續幀集Sp=[fp-s,…,fp,…,fp+s];s為經驗值,其取值范圍為5~10;所述的原始視頻為原始視頻訓練樣本或待識別原始視頻;
梯度邊界圖集獲得模塊,用來計算Sp中相鄰兩幀圖像間的梯度邊界值得到梯度邊界矩陣,根據梯度邊界矩陣獲得梯度邊界圖集;所述的梯度邊界矩陣Ptx和Pty分別表示ft和其后續相鄰的幀圖像ft+1間分別在圖像橫向方向和圖像縱向方向的梯度邊界矩陣,t=p-s,p-s+1,...,p+s-1;
Ptx由元素Ptx(u,v)構成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐標;Ptx(u,v)表示ft中像素(u,v)在圖像橫向方向的梯度邊界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;
Pty由元素Pty(u,v)構成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐標;Pty(u,v)表示ft中像素(u,v)在圖像縱向方向的梯度邊界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;
光流圖集獲得模塊,用來計算連續幀集Sp中相鄰兩幀圖像間的幀間光流,從而獲得光流圖集;所述的光流圖集oftx和ofty表示ft和ft+1分別在圖像橫向方向和圖像縱向方向的幀間光流,t=p-s,p-s+1,...,p+s-1;
CNN特征識別模塊,用來采用各原始視頻訓練樣本的代表幀、梯度邊界圖集和光流圖集訓練卷積神經網絡;以各原始視頻訓練樣本和待識別原始視頻的代表幀、梯度邊界圖集和光流圖集為輸入,采用訓練后的卷積神經網絡獲得各原始視頻訓練樣本和待識別原始視頻的代表幀CNN特征Crgb、梯度邊界CNN特征Cgbf和光流CNN特征Cof;
融合模塊,用來采用各原始視頻訓練樣本的Crgb、Cgbf和Cof訓練融合公式Cfusion=ycat*k+b中參數k和b,其中,k為卷積核參數;b為偏置參數;ycat=[Cgbf,Crgb,Cof];采用訓練后的融合公式融合待識別原始視頻的Crgb、Cgbf和Cof,得到融合特征Cfusion;
動作識別模塊,用來基于融合特征Cfusion,采用動作分類算法進行動作識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710018537.4/1.html,轉載請聲明來源鉆瓜專利網。





