[發(fā)明專利]一種基于圖像壓縮的人體動(dòng)作分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911217145.6 | 申請(qǐng)日: | 2019-12-03 |
| 公開(公告)號(hào): | CN110991340B | 公開(公告)日: | 2023-02-28 |
| 發(fā)明(設(shè)計(jì))人: | 崔莉亞;劉皓東;趙紅領(lǐng);李潤(rùn)知;王菁 | 申請(qǐng)(專利權(quán))人: | 鄭州大學(xué) |
| 主分類號(hào): | G06V40/20 | 分類號(hào): | G06V40/20;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 河南大象律師事務(wù)所 41129 | 代理人: | 尹周 |
| 地址: | 450001 河南*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 壓縮 人體 動(dòng)作 分析 方法 | ||
1.一種基于圖像壓縮的人體動(dòng)作分析方法,其特征在于,主要包括跳繩視頻采集、視頻數(shù)據(jù)預(yù)處理、視頻幀的壓縮模型建立、坐標(biāo)點(diǎn)的獲取、坐標(biāo)點(diǎn)開窗重識(shí)別、特征序列的構(gòu)建、動(dòng)作分析模型的構(gòu)建,具體步驟1:通過手機(jī)采集人體正面正搖雙腳跳過程中的視頻流數(shù)據(jù),記錄并保存目標(biāo)對(duì)象的基本信息,包括姓名、性別、年齡、身高、體重、所做動(dòng)作名稱以及跳繩視頻流數(shù)據(jù);
步驟2:對(duì)不同設(shè)備采集的視頻流數(shù)據(jù)進(jìn)行高和寬的統(tǒng)一設(shè)定,將視頻高設(shè)定為530cm,寬設(shè)定為460cm,構(gòu)建深度學(xué)習(xí)的端到端的圖像壓縮框架,用以對(duì)視頻的每一幀進(jìn)行壓縮,其步驟為:
步驟A1:獲取手機(jī)或攝像機(jī)拍攝的視頻數(shù)據(jù),轉(zhuǎn)換成統(tǒng)一的尺度;
步驟A2:在編碼器端構(gòu)建第一塊卷積神經(jīng)網(wǎng)絡(luò),來獲得原始圖像幀的特征表示信息,然后構(gòu)建第二塊卷積神經(jīng)網(wǎng)絡(luò),對(duì)解碼后的圖像幀的特征表示信息進(jìn)行復(fù)原,最終得到復(fù)原圖像;
視頻幀的壓縮過程分為編碼層和解碼層,其中所述的編碼層為三層卷積層并且第二層和第三層加入了批歸一化,激活函數(shù)選擇Relu,編碼層的最后一層加入了Squeeze-and-Excituatuin塊;解碼層第一層使用了卷積層,第二層和第四層使用了subpixel層,第三層加入了Squeeze-and-Excituatuin塊;
其中所述的Squeeze-and-Excitation塊是一個(gè)計(jì)算單元,可以為任何給定的變換構(gòu)建:Ftr:X→U,X∈RW′×H′×C′,U∈RW×H×C,Ftr為一個(gè)標(biāo)準(zhǔn)的卷子算子,V=[v1,v2,...,vC]表示學(xué)習(xí)到的一組濾波器核,vc指的是第c個(gè)濾波器的參數(shù)U=[u1,u2,...,uC],其中*代表卷積,X=[x1,x2,...,xC′],是2D空間核表示vc的一個(gè)通道作用于對(duì)應(yīng)的通道X,W′,H′,C′為原始圖像的長(zhǎng)和寬以及通道數(shù),W,H,C為經(jīng)過一次變化的得到的新的長(zhǎng)和寬以及通道數(shù);
其中所述的subpixel層是一種巧妙的圖像及特征圖上采樣的方法;
步驟3:對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)視頻中每一幀的人體進(jìn)行姿態(tài)估計(jì),得到關(guān)鍵點(diǎn)坐標(biāo),其步驟如下:
步驟B1:獲取壓縮后的圖像幀;
步驟B2:利用Open-pose方法對(duì)獲得視頻中每幀人體的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝蓋、右腳踝、左臀部、左膝蓋、左腳踝這14個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)位置,坐標(biāo)表示為Ci=(cxi,cyi),其中i從1到14;
步驟B3:Open-pose利用預(yù)測(cè)的關(guān)鍵點(diǎn)和真實(shí)值之間的高斯距離來定義關(guān)鍵點(diǎn)的置信度,并將置信度歸一化到[0,1]的范圍,在此定義為關(guān)鍵點(diǎn)的得分score并得到輸出結(jié)果inputsi=(xi,yi,scorei);
步驟B4:對(duì)14個(gè)關(guān)鍵點(diǎn)得分求均值和方差,并將均值和方差的和作為整體關(guān)鍵點(diǎn)的得分結(jié)果,其中:
score總=score平均+score標(biāo)準(zhǔn)差;
步驟4:利用圖像開窗的技術(shù)對(duì)關(guān)鍵點(diǎn)預(yù)測(cè)低的位置進(jìn)行開窗并重新識(shí)別,利用全局信息和局部提升關(guān)鍵點(diǎn)的預(yù)測(cè)準(zhǔn)確度,其步驟為:
步驟C1:利用Open-pose得到inputsi=(xi,yi,scorei),并對(duì)score設(shè)置閾值th,并找出小于閾值th的關(guān)鍵點(diǎn);
步驟C2:對(duì)小于閾值的關(guān)鍵點(diǎn),在關(guān)鍵點(diǎn)周圍進(jìn)行開窗,并將窗內(nèi)的圖像幀放入修改了輸入的Open-pose網(wǎng)絡(luò)中;
步驟C3:利用全局信息來更新局部幀中獲得的關(guān)鍵點(diǎn)坐標(biāo),其中所述的圖像開窗技術(shù)即,在原始圖像中突出需要的目標(biāo)信息,目的是為了檢測(cè)此窗口內(nèi)的關(guān)鍵點(diǎn)坐標(biāo)位置;
步驟5:為了進(jìn)一步提升算法對(duì)拍攝角度、目標(biāo)遠(yuǎn)近、錄制過程抖動(dòng)等因素的魯棒性,分別將關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行歸一化、轉(zhuǎn)化為相對(duì)坐標(biāo)以及標(biāo)準(zhǔn)化處理;關(guān)鍵點(diǎn)坐標(biāo)的大小范圍是相對(duì)于視頻分辨率的,將坐標(biāo)值(x,y)分別比視頻分辨率(vw,vh)歸一化到(0,1)范圍,減小了不同視頻分辨率以及不同肢體關(guān)鍵點(diǎn)的數(shù)值差異;然后選取脖頸部位的關(guān)鍵點(diǎn)(x0,y0)作為原點(diǎn),則采用如下公式對(duì)其它坐標(biāo)進(jìn)行變換:
其中,(xi,yi)為人體關(guān)鍵點(diǎn)的坐標(biāo),即為轉(zhuǎn)換后的相對(duì)坐標(biāo),并得到數(shù)據(jù)
其中,(xi,yi)為人體關(guān)鍵點(diǎn)的坐標(biāo),即為轉(zhuǎn)換后的相對(duì)坐標(biāo);分類網(wǎng)絡(luò)訓(xùn)練階段對(duì)28個(gè)特征進(jìn)行標(biāo)準(zhǔn)化處理,以降低不同樣本的差異性,假設(shè)p代表同一時(shí)間步中樣本的任一特征,即公式如下:
其中,μ為n個(gè)樣本的均值,σ2為標(biāo)準(zhǔn)差,每個(gè)樣本的特征通過進(jìn)行標(biāo)準(zhǔn)化,則為轉(zhuǎn)換后的魯棒性特征;
步驟6:通過專業(yè)人員對(duì)視頻進(jìn)行分析,按時(shí)間段進(jìn)行標(biāo)記,記錄并保存得到的標(biāo)簽;
步驟7:累計(jì)每幀得到的坐標(biāo)矩陣P,得到每段視頻的累計(jì)坐標(biāo)矩陣D,利用滑動(dòng)窗口對(duì)累計(jì)坐標(biāo)矩陣進(jìn)行窗口分割,即,滑動(dòng)窗口長(zhǎng)度設(shè)置為每20幀得到的累計(jì)坐標(biāo),步長(zhǎng)設(shè)置為有50%的數(shù)據(jù)重疊;
步驟8:利用累計(jì)坐標(biāo)矩陣D,構(gòu)建數(shù)據(jù)的特征集X和標(biāo)簽集Y,其中X=Rd表示d維的輸入空間,Y={0,1}q,表示可能標(biāo)簽的標(biāo)簽空間,T=(xi,yi)|1≤i≤m,m表示數(shù)據(jù)集的大小,xi∈X,是一個(gè)d維的向量,yi∈Y是Y的一個(gè)標(biāo)簽子集;
步驟9:利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建多標(biāo)簽分類器h(·),預(yù)測(cè)作為x的正確標(biāo)簽集,其步驟為:
步驟D1:利用CNN融合RNN來構(gòu)建網(wǎng)絡(luò)模型,即,一個(gè)雙向的LSTM(BiLSTM)模型和一個(gè)擁有兩層卷積層加全局池化層的模型進(jìn)行融合來構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型;
在構(gòu)建網(wǎng)絡(luò)模型時(shí),為了提高模型的泛化能力,加速模型學(xué)習(xí)速度,在BiLSTM層中加入Dropout層,為了實(shí)現(xiàn)多標(biāo)簽分類,最后一層激活函數(shù)設(shè)置為sigmoid激活函數(shù),損失函數(shù)選擇二元交叉熵(binary_crossentropy)損失函數(shù);
步驟D2:將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩個(gè)部分,利用測(cè)試集訓(xùn)練訓(xùn)練網(wǎng)絡(luò)模型,并保存預(yù)訓(xùn)練模型;
步驟D3:將測(cè)試數(shù)據(jù)輸入到訓(xùn)練好的模型中,得到預(yù)測(cè)的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州大學(xué),未經(jīng)鄭州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911217145.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





