[發(fā)明專利]一種基于三維卷積和Faster RCNN的視頻動(dòng)作檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810144476.0 | 申請(qǐng)日: | 2018-02-12 |
| 公開(公告)號(hào): | CN108399380A | 公開(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 劉波;聶相琴 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動(dòng)作檢測(cè) 卷積 三維 視頻 候選框 視頻流 標(biāo)注信息 動(dòng)作開始 動(dòng)作類別 分類檢測(cè) 空間位置 時(shí)間區(qū)域 時(shí)間預(yù)測(cè) 視頻時(shí)序 特征基礎(chǔ) 邊界框 數(shù)據(jù)集 剪輯 修剪 引入 預(yù)測(cè) 網(wǎng)絡(luò) | ||
本發(fā)明公開一種基于三維卷積和Faster RCNN的視頻動(dòng)作檢測(cè)方法,首先引入一個(gè)新的模型,其使用三維完全卷積網(wǎng)絡(luò)對(duì)視頻流進(jìn)行編碼;隨后在生成的特征基礎(chǔ)上生成包含動(dòng)作的候選時(shí)間區(qū)域,并生成一組候選框;最后不同剪輯的候選框經(jīng)過分類檢測(cè),將視頻流中動(dòng)作類別、視頻動(dòng)作開始和結(jié)束時(shí)間預(yù)測(cè)出來;同時(shí)預(yù)測(cè)出動(dòng)作的空間位置邊界框。與現(xiàn)有方法相比,本發(fā)明所述方法在未修剪的數(shù)據(jù)集視頻時(shí)序動(dòng)作檢測(cè)上具有優(yōu)異的性能,同時(shí)可以在缺乏空間標(biāo)注信息的情況下實(shí)現(xiàn)動(dòng)作定位。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及一種基于三維卷積和Faster RCNN的視頻動(dòng)作檢測(cè)方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)視頻媒介的蓬勃發(fā)展,近年來視頻內(nèi)容檢測(cè)與分析引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。動(dòng)作識(shí)別是視頻內(nèi)容檢測(cè)與分析的一個(gè)重要分支。在計(jì)算機(jī)視覺領(lǐng)域,動(dòng)作識(shí)別無論是在手工特征還是深度學(xué)習(xí)特征等方面都取得了很大的進(jìn)步。動(dòng)作識(shí)別通常歸結(jié)為一個(gè)分類問題,其中,訓(xùn)練階段的每個(gè)動(dòng)作實(shí)例都是從一個(gè)較長視頻序列中修剪出來,學(xué)習(xí)動(dòng)作模型被用于修剪視頻(例如,HMDB51和UCF101)或未修剪視頻(例如,THUMOS14和ActivityNet)中的動(dòng)作識(shí)別。然而,現(xiàn)實(shí)世界中的大多數(shù)視頻是不受限制的,可能包含多個(gè)具有不相關(guān)背景場(chǎng)景活動(dòng)的動(dòng)作實(shí)例。針對(duì)該問題學(xué)術(shù)界開始逐漸關(guān)注另一個(gè)具有挑戰(zhàn)性的識(shí)別方法-時(shí)序動(dòng)作檢測(cè)。該方法旨在檢測(cè)未修剪視頻中的動(dòng)作實(shí)例,包括時(shí)間邊界和實(shí)例類別。該方法在監(jiān)控視頻分析和智能家居護(hù)理等領(lǐng)域具有廣闊前景。
自從2012年將卷積神經(jīng)網(wǎng)絡(luò)(CNN)運(yùn)用于圖像分類的重大突破以來,眾多研究工作圍繞在設(shè)計(jì)有效的深層網(wǎng)絡(luò)架構(gòu)運(yùn)用于視頻中的動(dòng)作檢測(cè)。Gaidon等人先后在2011年的IEEE Conference on Computer Vision and Pattern Recognition(CVPR)和2013年的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上發(fā)表的“Actom sequence models for efficient action detection”和“Temporallocalization of actions with actoms”,介紹了在未修剪的視頻中定位動(dòng)作的問題,然而行為動(dòng)作比較有限,如“喝酒吸煙”和“開門靜坐”。Escorcia等人于2016年在EuropeanConference on Computer Vision(ECCV)上發(fā)表的“Daps:Deep action proposals foraction understanding”,建立了基于長短期記憶(LSTM)的時(shí)間動(dòng)作候選框系統(tǒng)。Yeung等人于2015年在arXiv preprint(arXiv:1507.05738)上發(fā)表的“Every moment counts:Dense detailed labeling of actions in complex videos”,為THUMOS視頻中的每個(gè)幀引入了多標(biāo)簽注釋的MultiTHUMOS數(shù)據(jù)集,并定義了一個(gè)LSTM網(wǎng)絡(luò)來模擬多個(gè)輸入和輸出連接。Yuan等人于2016年在IEEE Conference on Computer Vision and PatternRecognition(CVPR)上發(fā)表的“Temporal action localization with pyramid of scoredistribution features”,基于滑動(dòng)窗口中心提出了一個(gè)分?jǐn)?shù)分布特征的金字塔,以捕獲多個(gè)分辨率的運(yùn)動(dòng)信息,并利用RNN提高了幀之間的一致性。Sun等人于2015年在ACMInternational Conference on Multimedia(ACM MM)上發(fā)表了“Temporal localizationof fine-grained actions in videos by domain transfer from web images”,研究了當(dāng)僅有視頻級(jí)注釋可用時(shí),利用網(wǎng)頁圖像來訓(xùn)練LSTM模型。此外,Lea等人于2016年在IEEEConference on Computer Vision and Pattern Recognition(ECCV)上發(fā)表了“Segmentalspatiotemporal cnns for fine-grained action segmentation”,在訓(xùn)練模型時(shí)使用了一維卷積來捕捉場(chǎng)景變化。雖然RNN和時(shí)間1D卷積可以對(duì)幀之間的時(shí)間依賴性進(jìn)行建模并進(jìn)行幀級(jí)預(yù)測(cè),但它們通常位于深層ConvNets之上,該ConvNets采用單個(gè)幀作為輸入,而不是直接建模原始視頻中的時(shí)空特征。Shou等人于2016年在European Conference onComputer Vision(ECCV)上發(fā)表的“Temporal action localization in untrimmedvideos via multi-stage cnns”,提出了一種基于端到端的基于段的3D CNN框架(S-CNN),該框架捕獲時(shí)空信息的方式優(yōu)于其他基于RNN的方法。然而,S-CNN缺乏在精細(xì)的時(shí)間分辨率下進(jìn)行預(yù)測(cè)并將動(dòng)作實(shí)例的精確時(shí)間邊界定位的能力。同時(shí)由于當(dāng)前的未修剪數(shù)據(jù)集缺乏空間標(biāo)注信息,因而目前的未修剪數(shù)據(jù)集很難做到在定位動(dòng)作時(shí)間邊界的時(shí)候同步定位出該動(dòng)作的空間邊界框。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810144476.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 身體動(dòng)作檢測(cè)裝置
- 動(dòng)作檢測(cè)開關(guān)
- 動(dòng)作檢測(cè)裝置
- 動(dòng)作檢測(cè)系統(tǒng)、動(dòng)作檢測(cè)裝置、動(dòng)作檢測(cè)方法以及動(dòng)作檢測(cè)程序
- 動(dòng)作檢測(cè)方法與動(dòng)作檢測(cè)裝置
- 琴鍵動(dòng)作識(shí)別裝置、琴鍵動(dòng)作檢測(cè)系統(tǒng)及檢測(cè)方法
- 雷擊動(dòng)作檢測(cè)電路
- 步伐動(dòng)作檢測(cè)裝置
- 琴鍵動(dòng)作檢測(cè)裝置
- 動(dòng)作向量檢測(cè)裝置及動(dòng)作向量檢測(cè)方法
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種三維彩色物品制作方法
- 三維內(nèi)容顯示的方法、裝置和系統(tǒng)
- 三維對(duì)象搜索方法、裝置及系統(tǒng)
- 三維會(huì)話數(shù)據(jù)展示方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種三維模型處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 用于基于分布式賬本技術(shù)的三維打印的去中心化供應(yīng)鏈
- 標(biāo)記數(shù)據(jù)的獲取方法及裝置、訓(xùn)練方法及裝置、醫(yī)療設(shè)備
- 一種基于5G網(wǎng)絡(luò)的光場(chǎng)三維浸入式體驗(yàn)信息傳輸方法及系統(tǒng)
- 用于機(jī)器人生產(chǎn)系統(tǒng)仿真的三維場(chǎng)景管理與文件存儲(chǔ)方法
- 基于三維形狀知識(shí)圖譜的三維模型檢索方法及裝置





