[發(fā)明專利]基于投影重構(gòu)和多輸入多輸出神經(jīng)網(wǎng)絡(luò)的坐姿識別方法有效
| 申請?zhí)枺?/td> | 202010119569.5 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111325166B | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設(shè)計(jì))人: | 沈捷;黃安義;王莉;曹磊 | 申請(專利權(quán))人: | 南京工業(yè)大學(xué) |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/774;G06V10/764;G06V10/20;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 南京君陶專利商標(biāo)代理有限公司 32215 | 代理人: | 嚴(yán)海晨 |
| 地址: | 210009 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 投影 輸入 輸出 神經(jīng)網(wǎng)絡(luò) 坐姿 識別 方法 | ||
1.基于投影重構(gòu)和多輸入多輸出神經(jīng)網(wǎng)絡(luò)的坐姿識別方法,其特征是包括以下步驟:
(1)圖像獲取:利用深度攝像頭獲取深度圖像和人體前景輪廓圖;
(2)圖像預(yù)處理:對所獲得的深度圖像和人體前景輪廓圖進(jìn)行直方圖均值化和濾波預(yù)處理操作,并將樣本進(jìn)行數(shù)據(jù)增強(qiáng),以擴(kuò)充數(shù)據(jù)集用于訓(xùn)練;
(3)深度圖像投影重構(gòu):對人體前景輪廓深度圖進(jìn)行投影重構(gòu),分別以X、Y、Z軸反方向?yàn)橥队胺较?,依次得到左視圖、俯視圖和主視圖,即三視角深度圖;
(4)建立坐姿識別模型:設(shè)計(jì)用于坐姿識別的多輸入多輸出神經(jīng)網(wǎng)絡(luò),并將經(jīng)過步驟(3)處理后的三視角深度圖分別作為多輸入多輸出神經(jīng)網(wǎng)絡(luò)的三個通道的輸入,進(jìn)行網(wǎng)絡(luò)訓(xùn)練;
1)多輸入多輸出神經(jīng)網(wǎng)絡(luò)設(shè)計(jì):多輸入多輸出神經(jīng)網(wǎng)絡(luò)以左視圖、俯視圖和主視圖三視角深度圖作為輸入,分別輸入到三個分支網(wǎng)絡(luò)中,得到3個不同的特征矩陣;接著在特征矩陣數(shù)量維度上,將左視圖、俯視圖和主視圖的特征矩陣進(jìn)行concat拼接后用于前后方向的坐姿狀態(tài)特征;將俯視圖和主視圖的特征矩陣concat拼接后用于左右方向的坐姿狀態(tài)特征;將拼接后的兩個坐姿狀態(tài)特征再分別輸入到深層的兩個子網(wǎng)絡(luò)分支中,子網(wǎng)絡(luò)分支最終輸出兩個為1維的特征向量,分別對應(yīng)坐姿前后方向和左右方向的特征向量,最后使用2個softmax層對左右和前后狀態(tài)的坐姿向量進(jìn)行概率分布輸出;
(a)輸入某個原始圖像,首先使用3*3的核進(jìn)行卷積層操作,接著對其進(jìn)行BatchNorm歸一化和Relu6激活函數(shù)進(jìn)行激活,得到112*112*32的特征圖;
所述的卷積層的計(jì)算過程為:
其中,稱為卷積層l的第j個通道的凈激活,通過對前一層輸出特征圖進(jìn)行卷積求和與偏置后得到的,是卷積l的第j個通道的輸出,f(·)稱為激活函數(shù),使用Relu6函數(shù);Mj表示用于計(jì)算的輸入特征圖子集,是卷積核矩陣,是對卷積后特征圖的偏置;對于一個輸出特征圖每個輸入特征圖對應(yīng)的卷積核可能不同,“*”是卷積符號;
Relu6激活函數(shù)f(x)為:
f(x)=Min(Max(0,x),6);
卷積和激活之后采用BatchNorm,將數(shù)據(jù)歸一化到均值為0,方差為1的高斯分布上:
其中,Xk為特征層中的第k個特征圖,E(Xk)為求取輸入特征圖Xk的均值,Var(Xk)為求取特征圖Xk的方差,為歸一化后的輸出;
(b)對卷積后的特征圖進(jìn)行CBAM注意力卷積模塊進(jìn)行卷積,CBAM的主要作用為讓網(wǎng)絡(luò)更加專注于重要特征區(qū)域和網(wǎng)絡(luò)關(guān)鍵通道;
(c)接著使用inverted?Residual?Block模塊進(jìn)行特征提?。籌nverted?ResidualBlock首先用point-wise?convolution將輸入的feature?map維度變大,接著進(jìn)行BatchNorm算法歸一化,和Relu6激活函數(shù)進(jìn)行激活,然后用depth-wise?convolution方式做卷積運(yùn)算,運(yùn)算后再次進(jìn)行BatchNorm算法歸一化和Relu6函數(shù)運(yùn)算,最后使用point-wise?convolution將其維度縮小;此時最后的point-wise?convolution后,進(jìn)行BatchNorm算法歸一化后不再使用Relu6激活函數(shù),而是使用線性激活函數(shù),以保留更多特征信息,保證模型的表達(dá)能力,同時也具有Resnet的思想;步驟(a)結(jié)束后使用四個invertedResidual?Block模塊進(jìn)行特征提取,最終得到分別三個視圖的14*14*64的特征圖;
(d)在特征矩陣數(shù)量維度上,將左視圖、俯視圖和主視圖的三個14*14*64的特征concat拼接成用于前后方向的14*14*192的坐姿狀態(tài)特征,俯視圖和主視圖這兩個特征concat拼接后用于左右方向的14*14*128的坐姿狀態(tài)特征;
(e)將拼接后的兩個特征進(jìn)行CBAM注意力卷積模塊進(jìn)行卷積,卷積后得到前后方向的14*14*192的特征圖,左右方向的14*14*128的坐姿狀態(tài)特征;
(f)將注意力卷積模塊卷積后的兩個特征分別進(jìn)行同樣的操作,首先進(jìn)行三次inverted?Residual?Block運(yùn)算,都得到7*7*320的特征圖,接著進(jìn)行point-wiseconvolution對特征圖進(jìn)行擴(kuò)展得到7*7*1280的特征圖,在使用平均池化得到1*1*128的一維特征,最后使用point-wise?convolution得到前后方向的子網(wǎng)絡(luò)得到1*1*4的一維特征和左右方向的子網(wǎng)絡(luò)得到1*1*3的一維特征;
(g)使用2個softmax層分別對左右和前后狀態(tài)的坐姿向量進(jìn)行概率分布輸出,包含以下具體步驟:
Softmax層的運(yùn)算函數(shù)為:
其中,Zj為第j個輸入變量,M為輸入變量的個數(shù),pzj為輸出,可以表示輸出類別為j的概率;
2)模型參數(shù)訓(xùn)練:將三視角深度圖分別輸入到多輸入多輸出神經(jīng)網(wǎng)絡(luò)的三個通道,得到模型坐姿信息,再計(jì)算模型坐姿結(jié)果與真實(shí)標(biāo)簽之間的交叉熵?fù)p失;根據(jù)損失函數(shù)使用反向傳播的梯度下降算法,對網(wǎng)絡(luò)的參數(shù)進(jìn)行不斷更新優(yōu)化完成網(wǎng)絡(luò)訓(xùn)練;
(a)將三視角深度圖分別輸入到多輸入多輸出神經(jīng)網(wǎng)絡(luò)的三個通道,得到模型坐姿信息,再計(jì)算模型坐姿結(jié)果與真實(shí)標(biāo)簽之間的交叉熵?fù)p失,交叉熵的計(jì)算公式為:
其中,labeli表示為onehot編碼后的標(biāo)簽,m為batch的樣本數(shù);
本次的模型的損失函數(shù):
Loss=Lv+Lh+γ∑j|wj2|;
其中,Lv為前后方向輸出的交叉熵,Lh為左右方向的交叉熵,∑j|wj2|為其L2正則項(xiàng),γ為正則項(xiàng)系數(shù),防止訓(xùn)練過擬合問題;
(b)使用反向傳播的梯度下降算法,對網(wǎng)絡(luò)的參數(shù)進(jìn)行不斷更新優(yōu)化,模型的輸出不斷接近真實(shí)標(biāo)簽,當(dāng)驗(yàn)證集的準(zhǔn)確率達(dá)到穩(wěn)定區(qū)域且不再增加時,網(wǎng)絡(luò)訓(xùn)練完成;
(5)坐姿識別:將預(yù)處理得到的三視角深度圖作為輸入量輸入到多輸入多輸出神經(jīng)網(wǎng)絡(luò),根據(jù)人體在空間中的分布情況,最終識別出坐姿;
(6)模型自學(xué)習(xí):對反饋的錯誤樣本進(jìn)行自篩選,并收集篩選后的誤判樣本,自動的進(jìn)行模型再學(xué)習(xí),提升模型識別精度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京工業(yè)大學(xué),未經(jīng)南京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010119569.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





