[發明專利]基于混合多尺度時序可分離卷積操作的視頻行為識別方法有效
| 申請號: | 202010037026.9 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111259782B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 王勇濤;單開禹;湯幟 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 尺度 時序 可分離 卷積 操作 視頻 行為 識別 方法 | ||
1.一種基于混合多尺度時序可分離卷積操作的視頻行為識別方法,其特征是,包括如下步驟:
1)將原始視頻抽取成圖片序列;
2)將圖片序列分成多個間隔,每個間隔抽取一張圖片組成圖片子序列;對圖片子序列進行特征提取,得到的圖片子序列的特征維度表示為F∈R(B×T)×C×H×W,其中B是批次維度,其值表示訓練時的批次大??;T為時間維度,其值表示每個視頻選取的序列間隔的數量;C為特征通道數量;W為特征在空間上的寬度;H為特征在空間上的高度;
3)設計并建立混合多尺度時序深度可分離卷積操作MixTConv;將步驟2)得到的圖片子序列的特征維度作為MixTConv操作的輸入,采用加入混合多尺度時序可分離卷積操作的卷積神經網絡模型作為學習器,提取得到圖片子序列的語義特征;包括如下操作:
31)將特征維度F重新排列/拉伸為F∈R(B×H×W)×C×T,再將F在通道維度分成g組,每組得到特征
32)對于每組特征,采用g個不同卷積核大小的一維深度可分離卷積,作用于時間維度;每個深度可分離卷積的卷積核的大小為{k1,...,kg};
33)令Wm表示卷積核大小為km的一維深度可分離卷積核,其中m表示卷積核對應的分組;對于第m個組,通道數為Cm,其中m∈1,2,...,g;第m個組的輸出值記作進行深度可分離卷積的操作,得到在第t個時間子序列間隔和第i個通道的值
34)將每個組的結果在通道維度重新組合,得到Z,Z∈R(B×H×W)×C×T;
35)將Z重新排列拉伸,得到Zout,Zout∈R(B×T)×C×H×W,作為混合多尺度時序可分離卷積操作的輸出;
4)將混合多尺度時序可分離卷積操作加入到二維卷積神經網絡模型的殘差連接層和第一個1×1卷積層之間,記作混合時空塊;
5)二維卷積神經網絡模型的殘差塊均采用混合時空塊,構建成混合時空網絡MSTNet;MSTNet的最后一個全連接層為標簽分類層,神經元個數對應于數據集標簽個數;MSTNet的輸出S表示為:
其中,T為時序間隔的數量,也就是圖片子序列長度;是第i幀輸出的特征向量;avg(·)表示在時間維度取平均;
6)訓練MSTNet,得到訓練好的MSTNet;包括如下操作:
61)數據增廣:使用時間和空間維度的數據增廣策略,在時間和空間維度上分別進行數據增廣,得到增廣后的數據;
62)再將時間維度T放在批次維度B中,網絡模型的輸入為I,得到輸出為O∈RB×Class;其中Class為數據集中對應類別的數量;采用交叉熵損失函數計算預測類別和真實類別,得到誤差,通過反向傳播更新參數;
63)經過設定次數迭代訓練后,保存結果最好的模型參數,作為最終模型訓練好的參數,即得到訓練好的混合時空網絡模型MSTNet;
7)測試MSTNet:測試過程每次固定取每個視頻片段時間維度上中間的一張圖;空間維度上,先將短邊拉伸,保持圖片長短邊比例不變,對長邊進行對應縮放,然后在圖片的中間區域中扣取圖片作為網絡的輸入;
將待識別的視頻按照步驟1)抽取為圖片序列,再對圖片序列進行步驟7)的處理,將得到的圖片子序列數據作為訓練好的MSTNet網絡模型的輸入,即可輸出視頻行為的類別;
通過上述步驟,實現基于混合多尺度時序可分離卷積的高效視頻行為識別。
2.如權利要求1所述基于混合多尺度時序可分離卷積操作的視頻行為識別方法,其特征是,從圖片序列抽取得到圖片子序列,進行時序數據增廣;抽取方式是:在訓練過程中從每個序列間隔中隨機抽取一張圖片,組成圖片子序列;在測試過程中抽取每個序列間隔的中間幀的圖片,組成圖片子序列。
3.如權利要求1所述基于混合多尺度時序可分離卷積操作的視頻行為識別方法,其特征是,步驟3)建立混合多尺度時序深度可分離卷積操作中,將圖片子序列的特征維度F在通道維度分成4組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010037026.9/1.html,轉載請聲明來源鉆瓜專利網。





