[發(fā)明專利]基于注意力機制和3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法有效
| 申請?zhí)枺?/td> | 201810463529.5 | 申請日: | 2018-05-15 |
| 公開(公告)號: | CN108830157B | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計)人: | 袁和金;牛為華;張穎;崔克彬 | 申請(專利權(quán))人: | 華北電力大學(xué)(保定) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 石家莊開言知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 13127 | 代理人: | 趙俊嬌 |
| 地址: | 071003 河*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 卷積 神經(jīng)網(wǎng)絡(luò) 人體 行為 識別 方法 | ||
本發(fā)明公開了一種基于注意力機制和3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法,該人體行為識別方法構(gòu)建了一個3D卷積神經(jīng)網(wǎng)絡(luò),該3D卷積神經(jīng)網(wǎng)絡(luò)的輸入層包括原始灰度圖和注意力矩陣兩個通道。該方法中構(gòu)建了識別視頻中的人體行為的3D CNN模型,引入了注意力機制,計算兩幀間的距離作為注意力矩陣,和原始人體行為視頻序列構(gòu)成雙通道輸入到構(gòu)建的3D CNN中,讓卷積操作對視覺重點區(qū)域進行著重特征提取。同時,對3DCNN結(jié)構(gòu)進行優(yōu)化,在網(wǎng)絡(luò)中加入Dropout層隨機凍結(jié)網(wǎng)絡(luò)部分連接權(quán)值,使用ReLU激活函數(shù),提高網(wǎng)絡(luò)稀疏性,解決隨著維度增加、層數(shù)加深引起的計算量劇增、梯度消失的問題,防止小數(shù)據(jù)集下的過擬合,提升網(wǎng)絡(luò)識別準(zhǔn)確率的同時減小時間的損耗。
技術(shù)領(lǐng)域
本發(fā)明涉及人體行為識別方法,尤指一種基于注意力機制和3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法。
背景技術(shù)
智能視頻分析一直是具有重要學(xué)術(shù)價值的研究領(lǐng)域,人體行為識別作為該領(lǐng)域中必不可少的一部分,成為了新的研究熱點,在智能視頻監(jiān)控、高級人機交互、體育運動分析和基于內(nèi)容的視頻檢索等方面都有廣闊的應(yīng)用前景。目前主流的人體行為識別方法大多使用人工設(shè)計的特征對視頻中的人體運動進行表征,如輪廓、剪影、HOG、Harris、SIFT以及這些特征在三維上的擴展等。人工設(shè)計特征是一種利用人類的智慧和先驗知識,且將這些知識應(yīng)用到目標(biāo)和行為識別技術(shù)中的很好的方式。但這種方式需要人工發(fā)掘能夠表現(xiàn)運動的特征,而人工選擇的特征有時較難表現(xiàn)出動作的本質(zhì)特征,對識別結(jié)果影響較大。
因此,如何提高視頻中人體行為識別準(zhǔn)確率,更好地利用視頻中的原始信息,是本領(lǐng)域技術(shù)人員努力研究的方向。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提高視頻中人體行為識別準(zhǔn)確率,考慮到視頻作為相互關(guān)聯(lián)的圖像在時間維度上的連續(xù)序列,可以通過卷積神經(jīng)網(wǎng)絡(luò)來進行處理,可將原始視頻直接輸入進構(gòu)建的神經(jīng)網(wǎng)絡(luò)中,進行人體行為的訓(xùn)練和識別,本發(fā)明的目的之一在于提出一種能更好地利用視頻中的原始信息的基于注意力機制的3D卷積神經(jīng)網(wǎng)絡(luò)模型。
為實現(xiàn)上述目的,本發(fā)明提供了一種基于注意力機制和3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法,其特征在于,該人體行為識別方法構(gòu)建了一個3D卷積神經(jīng)網(wǎng)絡(luò),該3D卷積神經(jīng)網(wǎng)絡(luò)的輸入層包括原始灰度圖和注意力矩陣兩個通道。
較佳的,所述注意力矩陣是通過計算連續(xù)兩幀之間的差分,并進行歸一化后得到的。
較佳的,所述注意力矩陣的計算是采用對連續(xù)兩幀之間的差分計算的二差分法或者將相鄰的三幀圖像作為一組進行再差分三幀差法。傳統(tǒng)的三幀差法是當(dāng)前幀與前后幀差分后進行再差分,本發(fā)明進一步改進為取兩次差分結(jié)果的“并集”,并集這個概念通過取每個像素點當(dāng)前幀和前后幀差分結(jié)果的較大值得到,該結(jié)果能表示當(dāng)前幀前后發(fā)生最大變化的區(qū)域。
所述三幀差法是分別求出當(dāng)前幀和前一幀以及當(dāng)前幀與后一幀的差分圖像,繼續(xù)讓兩個幀差再做差。
較佳的,該兩幀差分法中,注意力矩陣A是通過以下公式計算得出:
其中,x,y為目標(biāo)像素點的坐標(biāo),t為當(dāng)前幀序號,t-1表示當(dāng)前幀的前一幀,It為當(dāng)前幀在x,y位置的灰度值,公式(3)為計算相鄰兩幀之間的距離,通過公式(2)中的閾值T將無顯著性變化區(qū)域剔除,得到顯著性變化區(qū)域ID,通過公式(1)對距離進行歸一化,最終得到注意力矩陣A,其中min和max為顯著性變化區(qū)域ID內(nèi)的所有像素中灰度值中的最小值和最大值,該三維矩陣能夠表示輸入的人體行為視頻中動作顯著性變化區(qū)域。
較佳的,該三幀差分法步驟為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華北電力大學(xué)(保定),未經(jīng)華北電力大學(xué)(保定)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810463529.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





