[發明專利]基于八度卷積的壓縮視頻動作識別方法有效
| 申請號: | 202010057457.1 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111246217B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 張俊三;程俏俏;王曉敏;馮葉棋;常益浩;朱瑞;余勇 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | H04N19/577 | 分類號: | H04N19/577;H04N19/573;H04N19/42;H04N19/176;H04N19/13;H04N21/845 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 程佩玉 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 八度 卷積 壓縮 視頻 動作 識別 方法 | ||
1.一種基于八度卷積的壓縮視頻動作識別方法,其特征在于,包括:
S1、將待識別視頻壓縮為壓縮視頻,對所述壓縮視頻進行編碼,將所述壓縮視頻劃分為k個片段;
S2、構建八度卷積模型;
S3、對所述k個片段進行取樣并輸入所述八度卷積模型,根據交叉熵損失訓練所述八度卷積模型,得到所述k段的片段級結果;
S4、融合所述k個片段的片段級結果,得到所述待識別視頻預測結果;所述將待識別視頻壓縮為壓縮視頻,對所述壓縮視頻進行編碼,將所述壓縮視頻劃分為k個片段包括:
根據MPEG-4Part2將所述壓縮視頻分割為I幀、P幀和零個或多個B幀;其中,I幀為內部編碼幀、P幀為預測幀、B幀為由運動矢量和殘差組成的雙向幀,I幀為常規圖像,P幀編碼前一幀到當前幀的變化,P幀由運動矢量和殘差向量組成;
所述壓縮視頻包含I幀RGB圖像、運動矢量和殘差向量三種數據模式;其中,像素塊從原始幀到目標幀的移動為所述運動矢量,所述運動矢量在所述待識別視頻壓縮過程中分為多個宏塊,所述殘差向量為當前幀與參考I幀之間去除運動矢量之后的RGB差,所述運動矢量為m,所述殘差向量為r,Ii為所述壓縮視頻中的I幀,Pi+1為所述壓縮視頻中的P幀;
所述壓縮視頻為序列{Ii,Pi+1,K},對所述壓縮視頻進行編碼得到的編碼視頻為{Ii,Ii+1,...},所述P幀重構為Ii+1:
Ii+1=Pi+1+Ii
Pi+1=m+r
其中,I幀、殘差向量和P幀的大小為3*H*W,m的大小為2*H*W。
2.根據權利要求1所述的方法,其特征在于,所述運動矢量在所述待識別視頻壓縮過程中分為8x 8或者16x16或者32x32個宏塊。
3.根據權利要求1至2中任一項所述的方法,其特征在于,所述將所述壓縮視頻劃分為k段包括:
將所述壓縮視頻均勻劃分為K個片段,并對所述K個片段序列進行建模獲取長期運動的信息。
4.根據權利要求1所述的方法,其特征在于,所述構建八度卷積模型包括:
根據下式構建所述八度卷積模型:
H=fH→H(H)+upsample(fL→H(L))
L=fH→L(pool(H))+fL→L(L)
其中unsample和pool對應于上采樣和池化操作,fH→H,fL→L表示信息更新,H為高頻,L為低頻,fH→L,fL→H表示高頻與低頻兩個頻率之間的信息交換。
5.根據權利要求1或2所述的方法,其特征在于,所述根據交叉熵損失訓練所述八度卷積模型包括:
對所述八度卷積的不同的信道分配給低頻的比例α值設置為0.5。
6.根據權利要求5所述的方法,其特征在于,所述根據交叉熵損失訓練所述八度卷積模型包括:
根據深度學習編譯器TVM訓練所述八度卷積模型。
7.根據權利要求6所述的方法,其特征在于,訓練所述八度卷積模型過程中,用交叉熵損失進行反向傳播,更新優化所述八度卷積模型參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010057457.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于生成SDK的方法、裝置和電子設備
- 下一篇:一種數據全過程核對系統





