[發(fā)明專利]一種基于長時程深度時空網(wǎng)絡(luò)的行為識別方法在審
| 申請?zhí)枺?/td> | 201810071442.3 | 申請日: | 2018-01-25 |
| 公開(公告)號: | CN108319905A | 公開(公告)日: | 2018-07-24 |
| 發(fā)明(設(shè)計)人: | 孫寧;宦睿智;李曉飛 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 時空特征 視頻 長時 拼接 彩色圖像序列 圖像序列數(shù)據(jù) 復(fù)雜行為 視頻片段 網(wǎng)絡(luò)模型 行為識別 行為數(shù)據(jù) 多通道 數(shù)據(jù)集 光流 時空 多幀圖像 分類結(jié)果 順序串接 連續(xù)幀 魯棒性 識別率 低層 多幀 構(gòu)建 網(wǎng)絡(luò) 中層 融合 輸出 高層 | ||
一種基于長時程深度時空網(wǎng)絡(luò)的行為識別方法,包括如下步驟:構(gòu)建多通道特征拼接網(wǎng)絡(luò)模型;選取視頻行為數(shù)據(jù)集,提取視頻行為數(shù)據(jù)集中每個視頻的彩色圖像序列數(shù)據(jù)集和光流圖像序列數(shù)據(jù)集;將彩色圖像序列數(shù)據(jù)集和光流圖像序列數(shù)據(jù)集按照連續(xù)多幀分為若干片段,片段輸入多通道特征拼接網(wǎng)絡(luò)模型,先經(jīng)過低層提取每個片段連續(xù)幀的時空特征,再由中層拼接生成每個視頻片段的整體時空特征,并將每個視頻片段的整體時空特征按片段順序串接形成視頻的整體時空特征,然后在高層融合視頻的整體時空特征,最后通過softmax層輸出該視頻行為的分類結(jié)果。本發(fā)明通過提取長時程多幀圖像序列中的時空特征來識別視頻中的復(fù)雜行為,提高了視頻復(fù)雜行為的識別率和魯棒性。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像識別技術(shù)領(lǐng)域,具體涉及一種基于長時程深度時空網(wǎng)絡(luò)的行為識別方法。
背景技術(shù)
基于視頻的行為識別廣泛應(yīng)用于安全和行為分析等許多領(lǐng)域。在行為識別領(lǐng)域,有兩個關(guān)鍵和互補的方面:外觀和動態(tài)。識別系統(tǒng)的性能在很大程度上取決于能否從中提取和利用相關(guān)信息。然而,由于諸如尺度變化,視點變化和相機(jī)運動等許多復(fù)雜性,提取此類信息是較為困難的。因此,設(shè)計能夠應(yīng)對這些挑戰(zhàn)的有效特征,同時保留行為類別的分類信息變得至關(guān)重要。最近,卷積網(wǎng)絡(luò)(ConvNets)在分類物體,場景和復(fù)雜事件的圖像方面取得了巨大的成功。ConvNets也被用來解決視頻行為識別問題。Deep ConvNets具有很強的建模能力,能夠借助大規(guī)模的監(jiān)督數(shù)據(jù)集,從原始視覺數(shù)據(jù)中學(xué)習(xí)特征表示。然而,與圖像分類不同的是,深度網(wǎng)絡(luò)仍然無法比基于視頻的動作識別的傳統(tǒng)手工特性獲得顯著的優(yōu)勢。
ConvNet在視頻行動識別中的應(yīng)用受到兩大障礙的阻礙。首先,長時時間結(jié)構(gòu)在理解動作視頻中的動態(tài)過程中起著重要的作用。然而,主流的ConvNet框架通常集中在外觀和短期動作上,因此缺乏融合長時程時間結(jié)構(gòu)的能力。其次,在實踐中,深度訓(xùn)練需要大量訓(xùn)練樣本才能達(dá)到最佳性能。但是,由于數(shù)據(jù)收集和注釋的困難,公眾可用的動作識別數(shù)據(jù)集(例如UCF101,HMDB51)在大小和多樣性方面仍然有限。
發(fā)明內(nèi)容
本發(fā)明的目的在于:提供一種基于長時程深度時空網(wǎng)絡(luò)的行為識別方法,通過提取長時程多幀圖像序列中的時空特征來識別視頻中的復(fù)雜行為,提高了視頻復(fù)雜行為的識別率和魯棒性。
為了達(dá)到以上目的,提供一種基于長時程深度時空網(wǎng)絡(luò)的行為識別方法,包括如下步驟:
S1、構(gòu)建多通道特征拼接網(wǎng)絡(luò)模型;
S2、選取視頻行為數(shù)據(jù)集,提取視頻行為數(shù)據(jù)集中每個視頻的視頻幀和光流幀,將視頻幀的集合作為彩色圖像序列數(shù)據(jù)集,光流幀的集合作為光流圖像序列數(shù)據(jù)集;
S3、將彩色圖像序列數(shù)據(jù)集和光流圖像序列數(shù)據(jù)集按照連續(xù)多幀分為若干片段,片段輸入多通道特征拼接網(wǎng)絡(luò)模型,先經(jīng)過低層卷積層提取每個片段連續(xù)幀的時空特征,再由中層拼接生成每個視頻片段的整體時空特征,并將每個視頻片段的整體時空特征按片段順序串接形成視頻的整體時空特征,然后在高層融合視頻的整體時空特征,最后通過softmax層輸出該視頻行為的分類結(jié)果。
本發(fā)明的優(yōu)選方案是:優(yōu)選地,還包括S4、訓(xùn)練多通道特征拼接網(wǎng)絡(luò)模型,采用預(yù)訓(xùn)練參數(shù)加快每路卷積神經(jīng)網(wǎng)絡(luò)收斂速度,進(jìn)行遷移學(xué)習(xí)。
優(yōu)選地,多通道特征拼接網(wǎng)絡(luò)模型包括3個通道輸入、90層網(wǎng)絡(luò)和1個輸出,3個通道輸入分別為原始視頻幀圖像輸入、X方向光流特征圖像輸入和Y方向光流特征圖像輸入,90層網(wǎng)絡(luò)的前87層為分別對應(yīng)3個通道輸入的三路并行卷積神經(jīng)網(wǎng)絡(luò),每路卷積神經(jīng)網(wǎng)絡(luò)均為29層且結(jié)構(gòu)相同,90層網(wǎng)絡(luò)的第88、89、90層為全連接層,輸出為softmax層。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810071442.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 基于時空特征點的互信息與時空分布熵的行為識別方法
- 一種基于時空特征融合遞歸神經(jīng)網(wǎng)絡(luò)的智能車端到端決策方法
- 規(guī)則挖掘方法和裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)
- 一種用于時空數(shù)據(jù)的特征提取方法
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 基于視覺時空特征的智能車預(yù)測控制方法
- 區(qū)域柵格化與時間片段化融合的長時空軌跡預(yù)測方法
- 時空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲介質(zhì)
- 基于時空特征信息的草圖檢索三維模型的跨模態(tài)檢索方法
- 一種基于時空特征的人臉活體檢測方法、裝置、電子設(shè)備及存儲介質(zhì)





