[發明專利]基于注意力機制和3D卷積神經網絡的人體行為識別方法有效
| 申請號: | 201810463529.5 | 申請日: | 2018-05-15 |
| 公開(公告)號: | CN108830157B | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 袁和金;牛為華;張穎;崔克彬 | 申請(專利權)人: | 華北電力大學(保定) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 石家莊開言知識產權代理事務所(普通合伙) 13127 | 代理人: | 趙俊嬌 |
| 地址: | 071003 河*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 卷積 神經網絡 人體 行為 識別 方法 | ||
1.一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,該人體行為識別方法構建了一個3D卷積神經網絡,該3D卷積神經網絡的輸入層包括原始灰度圖和注意力矩陣兩個通道其中,所述注意力矩陣是通過三幀差法計算連續三幀圖像之間的差分,并進行歸一化后得到的三維矩陣;
所述三幀差法是分別求出當前幀和前一幀以及當前幀與后一幀的差分圖像,然后取兩次差分結果的“并集”;并集這個概念通過取每個像素點當前幀和前后幀差分結果的較大值得到,使該結果能表示當前幀前后發生最大變化的區域;該三幀差法步驟為:
1)選取視頻幀序列中的連續三幀圖像It-1(x,y),It(x,y),It+1(x,y),分別計算相鄰兩幀圖像的差值Dt-1,t(x,y),Dt,t+1(x,y):
2)對得到的差分圖像通過選擇合適的閾值T提取顯著性變化區域,排除噪聲干擾:
3)在一組內將得到兩個差分圖像邏輯“或”,取得連續兩幀之間變化區域的并集,得到三幀圖像中的中間幀的前后顯著性變化區域,B(x,y),
B(x,y)=max(B1(x,y),B2(x,y)) (23)
4)最后將得到的差分圖像進行歸一化,得到幀差通道A(x,y),該三維矩陣能夠表示輸入的人體行為視頻中動作顯著性變化區域,
。
2.一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,該人體行為識別方法構建了一個3D卷積神經網絡,該3D卷積神經網絡的輸入層包括原始灰度圖和注意力矩陣兩個通道,其中,所述注意力矩陣是通過兩幀差分法計算連續兩幀圖像之間的差分,并進行歸一化后得到的三維矩陣,該兩幀差分法中,注意力矩陣A是通過以下公式計算得出:
其中,x,y為目標像素點的坐標,t為當前幀序號,t-1表示當前幀的前一幀,It為當前幀在x,y位置的灰度值,公式(3)為計算相鄰兩幀之間的距離D,通過公式(2)中的閾值T將無顯著性變化區域剔除,得到顯著性變化區域ID,通過公式(1)對距離進行歸一化,最終得到注意力矩陣A,其中min和max為顯著性變化區域ID內的所有像素中灰度值中的最小值和最大值,該三維矩陣能夠表示輸入的人體行為視頻中動作顯著性變化區域。
3.根據權利要求1或2所述的一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,該3D卷積神經網絡的3D卷積神經網模型包含:
一個雙通道輸入層、多個3D卷積層和多個3D池化層互相交錯穿插,最終連接全連接層后得到分類結果,注意力矩陣同原始灰度視頻幀立方體通過該雙通道輸入層一同輸入到神經網絡模型中。
4.根據權利要求3所述的一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,所述全連接層為兩個,在兩個全連接層前分別有一個Dropout層。
5.根據權利要求4所述的一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,所述Dropout概率設置為0.25到0.5之間的小數。
6.根據權利要求5所述的一種基于注意力機制和3D卷積神經網絡的人體行為識別方法,其特征在于,所述3D卷積層和3D池化層為分別為3-7個;所述3D卷積層和3D池化層的個數分別為5個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北電力大學(保定),未經華北電力大學(保定)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810463529.5/1.html,轉載請聲明來源鉆瓜專利網。





