[發(fā)明專利]基于混合多尺度時序可分離卷積操作的視頻行為識別方法有效
| 申請?zhí)枺?/td> | 202010037026.9 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111259782B | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 王勇濤;單開禹;湯幟 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京萬象新悅知識產(chǎn)權(quán)代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 混合 尺度 時序 可分離 卷積 操作 視頻 行為 識別 方法 | ||
本發(fā)明公布了一種基于混合多尺度時序可分離卷積操作的視頻行為識別方法,通過將原始視頻抽取成圖片序列,將圖片序列分成多個間隔,每個間隔抽取一張圖片組成圖片子序列,對圖片子序列進(jìn)行特征提取,再對圖片子序列特征進(jìn)行分類,得到分類結(jié)果,作為視頻內(nèi)發(fā)生行為的類別;采用加入了混合多尺度時序可分離卷積的卷積神經(jīng)網(wǎng)絡(luò)模型作為學(xué)習(xí)器,提取圖片子序列的語義特征,使用卷積神經(jīng)網(wǎng)絡(luò)模型中的全連接層對提取到的圖片子序列特征進(jìn)行分類。本發(fā)明方法用來解決視頻中動作發(fā)生長短不同以及空間中不同語義特征具有不同時序變化尺度的問題,可應(yīng)用于視頻行為識別等方面的視頻理解任務(wù),能夠高效地實(shí)現(xiàn)視頻行為識別。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器視覺及深度學(xué)習(xí)技術(shù)領(lǐng)域,涉及視頻行為識別技術(shù),尤其涉及一種使用混合多尺度時序深度可分離卷積的高效視頻行為識別的方法。
背景技術(shù)
視頻行為識別的目的是,對于給定的一段視頻,分析出視頻中所發(fā)生的的動作類別,給出對應(yīng)的標(biāo)簽。該任務(wù)可認(rèn)為是視頻分類任務(wù)的一種。對于后續(xù)進(jìn)行其他視頻內(nèi)容理解的任務(wù)來說,視頻分類任務(wù)是基礎(chǔ),所以有著很重要的作用。視頻行為識別作為一項(xiàng)基礎(chǔ)任務(wù),廣泛應(yīng)用于人機(jī)交互,城市安全監(jiān)控等場景。
在對視頻行為進(jìn)行識別的過程中,現(xiàn)有方法采用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。其主要分成三種:1)直接使用3D卷積神經(jīng)單元進(jìn)行特征提取,在每次卷積過程中,時空特征提取在時間維度和空間維度的計(jì)算是同時的。這導(dǎo)致參數(shù)量和計(jì)算量的大大提高。2)只使用2D卷積,提取每幀圖片的特征,獨(dú)立進(jìn)行判斷,最后結(jié)果取平均。這種方式雖然高效,卻缺乏有效的時序建模能力,在需要強(qiáng)時序推理的數(shù)據(jù)集和任務(wù)上表現(xiàn)糟糕。3)將時序建模和空間建模分開進(jìn)行,分別采用1D卷積和2D卷積進(jìn)行建模,降低了3D卷積的計(jì)算量。這種方法同樣也有缺點(diǎn),首先絕大部分方法使用普通1D卷積,其參數(shù)量和計(jì)算量依然不小。其次,這些方法都采用固定尺度的1D卷積核,無法同時處理長時序和短時序動作。以上所述導(dǎo)致了現(xiàn)有方法難以在現(xiàn)實(shí)場景中落地,急需更高效的方法進(jìn)行時空特征建模。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于混合多尺度時序深度可分離卷積操作的時空建模方法,用來解決視頻中動作發(fā)生長短不同以及空間中不同語義特征具有不同時序變化尺度的問題,可應(yīng)用于但不限于視頻行為識別的視頻理解任務(wù),能夠高效地實(shí)現(xiàn)視頻行為識別。
本發(fā)明將不同大小的深度可分離卷積融合在一個深度可分離卷積操作中,對不同通道的特征進(jìn)行不同尺度的時序建模,用來解決視頻中動作發(fā)生長短不同以及空間中不同語義特征具有不同時序變化尺度的問題。進(jìn)一步,通過將該操作插入現(xiàn)有2D卷積神經(jīng)網(wǎng)絡(luò)中,可以讓傳統(tǒng)2D卷積神經(jīng)網(wǎng)絡(luò)具有高效的時空建模能力,在幾乎不增加多余計(jì)算量的情況下極大程度提高了傳統(tǒng)2D卷積神經(jīng)網(wǎng)絡(luò)在需要強(qiáng)時序推理的數(shù)據(jù)集和任務(wù)上的表現(xiàn)。
本發(fā)明提供的技術(shù)方案是:
一種基于混合多尺度時序可分離卷積操作的視頻行為識別方法,通過將原始視頻按照一定標(biāo)準(zhǔn)抽取成圖片序列,將圖片序列分成多個間隔,每個間隔抽取一張圖片組成圖片子序列,然后對圖片子序列進(jìn)行特征提取,再對圖片子序列特征進(jìn)行分類,得到分類結(jié)果,作為視頻內(nèi)發(fā)生行為的類別。其中為了提取圖片子序列的特征,采用加入了混合多尺度時序可分離卷積的卷積神經(jīng)網(wǎng)絡(luò)模型作為學(xué)習(xí)器,使用卷積神經(jīng)網(wǎng)絡(luò)模型中的全連接層對提取到的圖片子序列特征進(jìn)行分類。具體包括如下步驟:
1)視頻圖片抽幀。
通過ffmpeg(https://www.ffmpeg.org/)對原始視頻抽取為圖片序列,作為每個視頻的初始數(shù)據(jù)形式。根據(jù)視頻原本的每秒幀數(shù)和圖像大小,抽取出每個視頻對應(yīng)的圖片序列。
2)抽取圖片子序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010037026.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種LED顯示系統(tǒng)的數(shù)據(jù)通信方法
- 用于顯示器的時序控制器
- 基于靜態(tài)分析的異步電路時序檢查方法
- 時序信號生成方法、裝置、邏輯電路板及存儲介質(zhì)
- 一種視頻的時序動作檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 調(diào)整時序的方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種時序分析方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于人工智能的數(shù)據(jù)檢測方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時序電路優(yōu)化方法、裝置及其存儲介質(zhì)
- 一種基于分布式的靜態(tài)時序分析方法





