[發明專利]一種基于深度相機和3D卷積神經網絡的步態識別方法有效
| 申請號: | 201710112825.6 | 申請日: | 2017-02-28 |
| 公開(公告)號: | CN107103277B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 王海濱;馬勝濤 | 申請(專利權)人: | 中科唯實科技(北京)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 北京律恒立業知識產權代理事務所(特殊普通合伙) 11416 | 代理人: | 顧珊;龐立巖 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 相機 卷積 神經網絡 步態 識別 方法 | ||
1.一種基于深度相機和3D卷積神經網絡的步態識別方法,其特征在于,包括步驟:
a)利用深度相機采集行人步態的RGB-D圖像序列;
b)獲取每幀圖像的步態剪影以及剪影對應的深度圖像剪影;
c)將每幀圖像的步態剪影和深度圖像剪影組成雙通道的步態圖像;
d)歸一化步態圖像序列,根據時間順序將步態圖像重組成步態序列I1,其維度為w1×h1×c1×m1,w1、h1、c1、m1分別為I1的寬度,高度,通道數和序列幀數;
e)將步態圖像序列輸入3D卷積神經網絡,前向傳播并輸出識別結果,其中,
3D卷積神經網絡前向傳播的步驟為:
e1)第一組3D卷積層,對步驟d)所得的圖像序列進行3D卷積操作,卷積核大小為kw1×kh1×km1,步長為ks1,卷積核個數為kn1,其卷積輸出為
其中,v1j(x,y,s)表示在第一組3D卷積層中第j個卷積核的第s個特征圖在位置(x,y)處的值,b1j為在第一組3D卷積層中第j個卷積偏移量,ω1j為在第一組3D卷積層中第j個卷積權重,
ω1j(α,β,γ)和I1(x+α,y+β,s+γ)均為在第一組3D卷積層中c1維向量;
將每個卷積核對應的特征圖歸為一組,則該層共有kn1組特征圖,每組(m1-km1)/ks1+1個特征圖,每個特征圖的尺寸為:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1);
其輸出維度為:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1)×((m1-km1)/ks1+1)×kn1;
e2)第一組ReLU激活函數層,對步驟e1)的輸出使用ReLU激活函數,其輸出為:
e3)第一組3D池化層,對步驟e2)的輸出進行最大值池化,核大小為2×2×2,步長為2,按照步驟e1)中的分組規則,池化層對每組特征圖分別進行池化操作,其輸出為:
p1j(x,y,s)=max{y1j(x+α,y+β,s+γ)|α,β,γ=0,1}
池化層的輸出維度為:
((w1-kw1)/ks1+1)/2×((h1-kh1)/ks1+1)/2×((m1-km1)/ks1+1)/2×kn1
e4)第一組時序重構層,對步驟e3)的輸出進行時序重構;按照步驟e1)所述,3D卷積層輸入的圖像序列是按照時序排列的,輸出的特征圖序列在每個分組內的特征圖仍然是按照時序排列,不同分組之間的特征圖不滿足時序關系,而不同分組中相同位置的特征圖處于同一時間節點;按照e3)所述,3D池化層的輸出同樣滿足上述時序規則;為了使后續數據依然滿足時序要求,將不同分組中同一位置的特征圖組合在一起看作一幅多通道圖像,并將這些圖像按照時序排列;令該時序重構層的輸出為I2,其維度為w2×h2×c2×m2,則:
I2(x,y,s,j)表示I2第s組第j個特征圖在位置(x,y)處的值;
e5)第二組3D卷積層,對步驟e4)的輸出進行3D卷積操作,卷積核大小為kw2×kh2×km2,步長為ks2,卷積核個數為kn2,其卷積輸出為
其中,v2j(x,y,s)表示表示在第二組3D卷積層中第j個卷積核的第s個特征圖在位置(x,y)處的值,b2j為在第二組3D卷積層中第j個卷積偏移量,ω2j為在第二組3D卷積層中第j個卷積權重,
ω2j(α,β,γ)和I2(x+α,y+β,s+γ)均為在第二組3D卷積層中c2維向量;
其輸出維度為
((w2-kw2)/ks2+1)×((h2-kh2)/ks2+1)×((m2-km2)/ks2+1)×kn2;
e6)第二組ReLU激活函數層,對步驟e5)的輸出使用ReLU激活函數,其輸出為:
e7)第二組3D池化層,對步驟e6)的輸出進行最大值池化,核大小為2×2×2,步長為2,其輸出為:
p2j(x,y,s)=max{y2j(x+α,y+β,s+γ)|α,β,γ=0,1}
輸出維度
((w2-kw2)/ks2+1)/2×((h2-kh2)/ks2+1)/2×((m2-km2)/ks2+1)/2×kn2;
e8)第二組時序重構層,對步驟e7)的輸出進行時序重構;令該時序重構層的輸出為I3,其維度為w3×h3×c3×m3,則:
I3(x,y,s,j)表示I3第s組第j個特征圖在位置(x,y)處的值;
e9)2D卷積網絡,對步驟e8)的輸出進行2D卷積和分類識別,采用裁剪的VGG16網絡。
2.根據權利要求1所述的方法,其特征在于:步驟d)的具體步驟為:
d1)定位步態剪影的最上和最下像素點,計算步態剪影的高度h0;
d2)定位步態剪影的最左和最右像素點,計算步態剪影的寬度w0;
d3)根據步態剪影的高度和寬度,計算剪影的質心位置;
d4)給定一個縱橫比r,以質心為中心,用w0×h0的矩形裁剪步態圖像,其中w0=h0*r;
d5)將已裁剪的步態圖像等比例縮放到3D卷積神經網絡的輸入尺寸;
d6)根據時間順序將步態圖像重組成步態序列I1,
其維度為w1×h1×c1×m1,w1,h1,c1,m1分別為I1的寬度,高度,通道數和序列幀數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科唯實科技(北京)有限公司,未經中科唯實科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710112825.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用低層傳感器融合的視覺算法執行
- 下一篇:一種節省指紋傳感器面積的采集電路





