[發(fā)明專利]基于雙向特征金字塔的視頻動(dòng)作檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910778111.8 | 申請(qǐng)日: | 2019-08-22 |
| 公開(公告)號(hào): | CN110659572B | 公開(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計(jì))人: | 宋硯;唐金輝;何江 | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V40/20 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 朱寶慶 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 雙向 特征 金字塔 視頻 動(dòng)作 檢測(cè) 方法 | ||
本發(fā)明提供了一種基于雙向特征金字塔的視頻動(dòng)作檢測(cè)方法,包括以下步驟:步驟1,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,提取I3D特征;步驟2,制作訓(xùn)練樣本;步驟3,搭建網(wǎng)絡(luò),并將步驟1得到的I3D特征輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;步驟4,將測(cè)試視頻對(duì)應(yīng)的I3D特征輸入到網(wǎng)絡(luò)中,得到動(dòng)作檢測(cè)結(jié)果,使用非極大值抑制算法去除冗余檢測(cè)結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種視頻識(shí)別技術(shù),特別是一種基于雙向特征金字塔的視頻動(dòng)作檢測(cè)方法。
背景技術(shù)
人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中至關(guān)重要的一個(gè)方向,其目的是自動(dòng)分析采集到的視頻,對(duì)人體動(dòng)作劃分行為類型,以代替人眼完成人體動(dòng)作的分析和判斷。動(dòng)作檢測(cè)是由動(dòng)作識(shí)別發(fā)展而來的。動(dòng)作檢測(cè)是在一段沒有剪輯過的長(zhǎng)視頻中定位動(dòng)作的開始和結(jié)束時(shí)間并識(shí)別出動(dòng)作的類型。
近年來,大多數(shù)的動(dòng)作檢測(cè)方法還是兩階段的,首先使用滑動(dòng)窗口或者其他的方法產(chǎn)生一些動(dòng)作候選片段提議,然后再使用一個(gè)分類器對(duì)動(dòng)作進(jìn)行精確的定位并確定動(dòng)作的類別。但是這些方法的檢測(cè)精度還是不能令人滿意。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于雙向特征金字塔的視頻動(dòng)作檢測(cè)方法。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為:一種基于雙向特征金字塔的視頻動(dòng)作檢測(cè)方法,包括以下步驟:
步驟1,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,提取I3D特征;
步驟2,制作訓(xùn)練樣本;
步驟3,搭建網(wǎng)絡(luò),并將步驟1得到的I3D特征輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;
步驟4,將測(cè)試視頻對(duì)應(yīng)的I3D特征輸入到網(wǎng)絡(luò)中,得到動(dòng)作檢測(cè)結(jié)果,使用非極大值抑制算法去除冗余檢測(cè)結(jié)果。
進(jìn)一步地,所述步驟1具體包括:
步驟101,把未剪輯的長(zhǎng)視頻,包括訓(xùn)練集和測(cè)試集,以jpeg的圖片格式,按照25FPS的幀率讀出為RGB圖片,并使用TVL1算法計(jì)算對(duì)應(yīng)的光流;
步驟102,每次從步驟101得到的視頻幀中取16幀,將該16幀的RGB圖片和計(jì)算得到對(duì)應(yīng)的光流輸入到I3D網(wǎng)絡(luò)中,分別提取I3D網(wǎng)絡(luò)的Mixed_5c層的輸出(2×7×7×1024),接著使用一個(gè)卷積核為2×7×7的AveragePooling3d得到1024維的特征;將RGB和光流得到的1024維特征拼接為2048維。
進(jìn)一步地,所述步驟2具體包括:
步驟201,統(tǒng)計(jì)步驟101得到的每個(gè)視頻的RGB幀數(shù),然后按照512幀劃分視頻段,在訓(xùn)練集中每個(gè)視頻段之間的重疊率為75%,在測(cè)試集中每個(gè)視頻段之間的重疊率為50%,并記錄每個(gè)視頻段在視頻中的起始位置;
步驟202,讀取訓(xùn)練集的標(biāo)注文件,計(jì)算真實(shí)標(biāo)注的動(dòng)作區(qū)間和步驟201得到的視頻段的重疊部分,然后根據(jù)重疊率來為視頻段分配真實(shí)標(biāo)注;
步驟203,根據(jù)特征層默認(rèn)錨的大小以及對(duì)應(yīng)的錨尺度計(jì)算特征層上的錨坐標(biāo);
步驟204,對(duì)步驟202得到的屬于視頻段的真實(shí)標(biāo)注動(dòng)作區(qū)間和步驟203得到的錨坐標(biāo)計(jì)算交并比IoU,并根據(jù)IoU分?jǐn)?shù)分配錨的標(biāo)簽,具體操作為:
步驟205,先將步驟204中的屬于錨的真實(shí)標(biāo)注動(dòng)作區(qū)間轉(zhuǎn)換成中心和寬度,然后再進(jìn)行編碼,編碼過程的具體操作為:
其中,gtc和gtw分別為真實(shí)標(biāo)注動(dòng)作的中心和寬度,anchorc和anchorw分別為錨的中心和寬度,encodec和encodew分別表示編碼后的動(dòng)作中心和寬度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910778111.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 雙向無線電能監(jiān)控系統(tǒng)
- 雙向無線電能監(jiān)控系統(tǒng)
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 雙向多步DeBruijn圖的自環(huán)雙向邊識(shí)別與去除方法
- 雙向調(diào)節(jié)機(jī)構(gòu)
- 基于HVDC網(wǎng)絡(luò)與AC環(huán)網(wǎng)的分布式發(fā)電系統(tǒng)
- 一種矩形板回彈曲率的建模方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





