[發(fā)明專利]一種基于稀疏時(shí)間分段網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810516281.4 | 申請(qǐng)日: | 2018-05-25 |
| 公開(公告)號(hào): | CN108764128A | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 溫世平;曾小芬;黃廷文 | 申請(qǐng)(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62 |
| 代理公司: | 華中科技大學(xué)專利中心 42201 | 代理人: | 李智;曹葆青 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 時(shí)間分段 網(wǎng)絡(luò) 動(dòng)作識(shí)別 稀疏 優(yōu)化 視頻 尺寸調(diào)整 提取信息 裁剪 存儲(chǔ)空間 視頻信息 網(wǎng)絡(luò)獲取 網(wǎng)絡(luò)結(jié)構(gòu) 稀疏卷積 信息輸入 訓(xùn)練視頻 結(jié)構(gòu)化 稀疏度 長(zhǎng)段 卷積 權(quán)重 雙流 融合 輸出 期望 | ||
本發(fā)明公開了一種基于稀疏時(shí)間分段網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別方法,包括:從每個(gè)訓(xùn)練視頻中提取信息,對(duì)時(shí)間分段網(wǎng)絡(luò)進(jìn)行第一次訓(xùn)練、優(yōu)化;在第一次優(yōu)化后的網(wǎng)絡(luò)加入稀疏項(xiàng),進(jìn)行第二次訓(xùn)練和優(yōu)化;對(duì)第二次優(yōu)化后的網(wǎng)絡(luò)進(jìn)行裁剪和尺寸調(diào)整;對(duì)尺寸調(diào)整后的網(wǎng)絡(luò)進(jìn)行第三次訓(xùn)練優(yōu)化,直至識(shí)別精度或者稀疏度達(dá)到期望;從待識(shí)別視頻中提取信息,將提取的信息輸入至第三次優(yōu)化后的網(wǎng)絡(luò),將時(shí)間分段網(wǎng)絡(luò)的輸出融合后得到動(dòng)作識(shí)別結(jié)果。本發(fā)明通過時(shí)間分段網(wǎng)絡(luò)獲取更長(zhǎng)段視頻的信息,同時(shí)雙流卷積網(wǎng)絡(luò)結(jié)構(gòu)能更充分地利用視頻信息,使動(dòng)作識(shí)別精度大幅提高;結(jié)構(gòu)化稀疏方法能成組地稀疏卷積層的權(quán)重,網(wǎng)絡(luò)裁剪進(jìn)一步精簡(jiǎn)模型,降低存儲(chǔ)空間。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理領(lǐng)域,更具體地,涉及基于稀疏時(shí)間分段網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別方法。
背景技術(shù)
視頻動(dòng)作識(shí)別是通過對(duì)輸入的視頻進(jìn)行數(shù)據(jù)處理,然后設(shè)計(jì)算法分析視頻中的人體行為,識(shí)別出人體動(dòng)作。2014年Simonyan等人提出了一種基于雙流卷積網(wǎng)絡(luò)模型的視頻動(dòng)作識(shí)別方法,該模型由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成,第一個(gè)為空間神經(jīng)網(wǎng)絡(luò),輸入數(shù)據(jù)為傳統(tǒng)的單個(gè)RGB圖像,第二個(gè)為時(shí)間神經(jīng)網(wǎng)絡(luò),輸入數(shù)據(jù)為與第一個(gè)網(wǎng)絡(luò)RGB圖像對(duì)應(yīng)的光流圖,光流圖是通過兩張相鄰時(shí)刻的RGB圖像計(jì)算得到。通過計(jì)算兩張圖之間像素點(diǎn)的變化,可以得到一張含有變化信息的光流圖,因此光流圖可以用來記錄時(shí)間信息,從而被用于時(shí)間神經(jīng)網(wǎng)絡(luò),通過兩個(gè)網(wǎng)絡(luò)可同時(shí)得到時(shí)間與空間信息,最后將兩者融合并做出最終預(yù)測(cè),從而可以更準(zhǔn)確地對(duì)RGB圖像進(jìn)行識(shí)別。
后來的人們對(duì)該動(dòng)作識(shí)別方法的不同方向作出改進(jìn):1.Simonyan等人提出的方法中融合是在最后的輸出層,F(xiàn)eichtenhofer等人提出一種在兩個(gè)網(wǎng)絡(luò)的處理過程中就進(jìn)行融合的動(dòng)作識(shí)別方法,經(jīng)驗(yàn)證識(shí)別準(zhǔn)確率更高;2.Simonyan等人提出的方法僅限于某張圖片及其對(duì)應(yīng)的光流圖,Wang limin等人提出了一種基于時(shí)間分段網(wǎng)絡(luò)(TemporalSegmentNetwork,TSN)的模型訓(xùn)練方法,在此方法中,訓(xùn)練網(wǎng)絡(luò)時(shí)的輸入不再是單個(gè)的RGB圖片及其對(duì)應(yīng)的光流圖,而是將整個(gè)視頻切分成幀,設(shè)一共有n幀,即n張RGB圖片,那么將整個(gè)視頻分成3段,每段含n/3張圖片,從每段中提取一張圖片,然后將3段的提取內(nèi)容結(jié)合在一起,再輸入到網(wǎng)絡(luò)中訓(xùn)練模型。由于是從整體的視頻幀里提取數(shù)據(jù),因此特征會(huì)帶有全局性,能更好地用于動(dòng)作識(shí)別;3.Simonyan等人提出的方法僅限于某張圖片及其對(duì)應(yīng)的光流圖,可能錯(cuò)過復(fù)雜動(dòng)作組合中真正的動(dòng)作,吳昊宣等人提出了一種能夠提取不同粒度的RGB信息和光流圖信息的視頻動(dòng)作識(shí)別方法,對(duì)于同一段視頻,可以提取到更多的視頻信息,具有多層次識(shí)別的能力,極大提高識(shí)別準(zhǔn)確率。
上述識(shí)別方法均未考慮下述問題:越來越高的識(shí)別率的是以越來越深的卷積神經(jīng)網(wǎng)絡(luò)為代價(jià)的。然而,網(wǎng)絡(luò)的加深不僅僅增加了網(wǎng)絡(luò)模型的尺寸,這樣會(huì)占據(jù)更多的存儲(chǔ)空間,更多的網(wǎng)絡(luò)層數(shù)會(huì)使卷積操作的次數(shù)呈指數(shù)的速度增長(zhǎng),占用大量的計(jì)算資源。這樣會(huì)降低運(yùn)行速度。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于解決現(xiàn)有技術(shù)存儲(chǔ)空間大、識(shí)別精度低、識(shí)別速度慢的技術(shù)問題。
為解決上述問題,本發(fā)明提供一種基于稀疏時(shí)間分段網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別方法,該方法包括以下步驟:
S1.構(gòu)建時(shí)間卷積神經(jīng)網(wǎng)絡(luò)和空間卷積神經(jīng)網(wǎng)絡(luò);
S2.準(zhǔn)備訓(xùn)練視頻集合,從每個(gè)訓(xùn)練視頻中提取信息,對(duì)時(shí)間卷積神經(jīng)網(wǎng)絡(luò)和空間卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行第一次訓(xùn)練和第一次優(yōu)化,使得損失函數(shù)最??;
S3.在第一次優(yōu)化后的時(shí)間神經(jīng)網(wǎng)絡(luò)和空間神經(jīng)網(wǎng)絡(luò)的損失函數(shù)中加入稀疏項(xiàng);
S4.對(duì)加入稀疏項(xiàng)的時(shí)間卷積神經(jīng)網(wǎng)絡(luò)和空間卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行第二次訓(xùn)練和第二次優(yōu)化,使得加入稀疏項(xiàng)的損失函數(shù)最??;
S5.對(duì)第二次優(yōu)化后的時(shí)間卷積神經(jīng)網(wǎng)絡(luò)和空間卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行裁剪和尺寸調(diào)整;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810516281.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 動(dòng)作識(shí)別系統(tǒng)及動(dòng)作識(shí)別方法
- 動(dòng)作識(shí)別器
- 動(dòng)作識(shí)別方法及動(dòng)作識(shí)別裝置
- 動(dòng)作識(shí)別方法及動(dòng)作識(shí)別裝置
- 動(dòng)作識(shí)別方法和動(dòng)作識(shí)別裝置
- 動(dòng)作識(shí)別裝置、動(dòng)作識(shí)別方法以及無人機(jī)
- 動(dòng)作識(shí)別方法
- 動(dòng)作識(shí)別方法、動(dòng)作識(shí)別裝置和電子設(shè)備
- 動(dòng)作識(shí)別跟蹤平臺(tái)
- 動(dòng)作識(shí)別裝置、動(dòng)作識(shí)別方法、存儲(chǔ)介質(zhì)及動(dòng)作識(shí)別系統(tǒng)





