[發明專利]基于八度卷積的壓縮視頻動作識別方法有效
| 申請號: | 202010057457.1 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111246217B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 張俊三;程俏俏;王曉敏;馮葉棋;常益浩;朱瑞;余勇 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | H04N19/577 | 分類號: | H04N19/577;H04N19/573;H04N19/42;H04N19/176;H04N19/13;H04N21/845 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 程佩玉 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 八度 卷積 壓縮 視頻 動作 識別 方法 | ||
本發明實施例公開一種基于八度卷積的壓縮視頻動作識別方法,能夠減少卷積特征映射和稠密模型參數的冗余度。該方法包括:S1、將待識別視頻壓縮為壓縮視頻,對所述壓縮視頻進行編碼,將所述壓縮視頻劃分為k個片段;S2、構建八度卷積模型;S3、對所述k個片段進行取樣并輸入所述八度卷積模型,根據交叉熵損失訓練所述八度卷積模型,得到所述k段的片段級結果;S4、融合所述k個片段的片段級結果,得到所述待識別視頻預測結果。本發明實施例用于壓縮視頻動作識別。
技術領域
本發明涉及視頻處理領域,尤其涉及一種基于八度卷積的壓縮視頻動作識別方法。
背景技術
視頻動作識別技術的目標是識別出給定視頻中的不同的動作類別。在實際應用中,精確的動作識別有助于輿情監控,廣告投放,以及很多其他視頻理解相關的任務。由于視頻內容和背景更加復雜多變,不同的動作類別之間具有相似性,而相同的類別在不同環境下又有著不同的特點,加之由于拍攝造成的遮擋、抖動、視角變化,影響動作識別。
相關的一種方法以卷積神經網絡作為核心,實現壓縮視頻動作識別。但通過卷積神經網絡進行壓縮視頻動作識別,存在卷積特征映射和稠密模型參數的冗余度問題。
發明內容
本發明實施例提供一種基于八度卷積的壓縮視頻動作識別方法,能夠減少卷積特征映射和稠密模型參數的冗余度。
本發明實施例采用如下技術方案:
一種基于八度卷積的壓縮視頻動作識別方法,包括:
S1、將待識別視頻壓縮為壓縮視頻,對所述壓縮視頻進行編碼,將所述壓縮視頻劃分為k個片段;
S2、構建八度卷積模型;
S3、對所述k個片段進行取樣并輸入所述八度卷積模型,根據交叉熵損失訓練所述八度卷積模型,得到所述k段的片段級結果;
S4、融合所述k個片段的片段級結果,得到所述待識別視頻預測結果。
可選的,所述將待識別視頻壓縮為壓縮視頻,對所述壓縮視頻進行編碼,將所述壓縮視頻劃分為k個片段包括:
根據MPEG-4Part2將所述壓縮視頻分割為I幀、P幀和零個或多個B幀;其中,I幀為內部編碼幀、P幀為預測幀、B幀為由運動矢量和殘差組成的雙向幀,I幀為常規圖像,P幀編碼前一幀到當前幀的變化,P幀由運動矢量和殘差向量組成;
所述壓縮視頻包含I幀RGB圖像、運動矢量和殘差向量三種數據模式;其中,像素塊從原始幀到目標幀的移動為所述運動矢量,所述運動矢量在所述待識別視頻壓縮過程中分為多個宏塊,所述殘差向量為當前幀與參考I幀之間去除運動矢量之后的RGB差,所述運動矢量為m,所述殘差向量為r,Ii為所述壓縮視頻中的I幀,Pi+1為所述壓縮視頻中的P幀;
所述壓縮視頻為序列{Ii,Pi+1,K},對所述壓縮視頻進行編碼得到的編碼視頻為{Ii,Ii+1,...},所述P幀重構為Ii+1:
Ii+1=Pi+1+Ii
Pi+1=m+r
其中,I幀、殘差向量和P幀的大小為3*H*W,m的大小為2*H*W。
可選的,所述運動矢量在所述待識別視頻壓縮過程中分為8x8或者16x16 或者32x32個宏塊。
可選的,所述將所述壓縮視頻劃分為k段包括:
將所述壓縮視頻均勻劃分為K個片段,并對所述K個片段序列進行建模獲取長期運動的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010057457.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于生成SDK的方法、裝置和電子設備
- 下一篇:一種數據全過程核對系統





