[發(fā)明專利]一種基于改進(jìn)維特比算法的連續(xù)動作識別方法有效
| 申請?zhí)枺?/td> | 201510035514.5 | 申請日: | 2015-01-23 |
| 公開(公告)號: | CN104573665A | 公開(公告)日: | 2015-04-29 |
| 發(fā)明(設(shè)計)人: | 張磊;白棟天;黃華 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) 算法 連續(xù) 動作 識別 方法 | ||
1.一種基于改進(jìn)維特比算法的連續(xù)動作識別方法,其特征在于:其包括訓(xùn)練過程和識別過程;
所述訓(xùn)練過程的具體實施步驟如下:
步驟一、對訓(xùn)練數(shù)據(jù)中的人體全身動作視頻數(shù)據(jù)進(jìn)行預(yù)處理;
將每一種人體全身動作的訓(xùn)練數(shù)據(jù)稱為一個訓(xùn)練樣本集;一個訓(xùn)練樣本集中的訓(xùn)練樣本數(shù)量用R表示,R≥20;分別對每個訓(xùn)練樣本集中的每個人體全身動作視頻數(shù)據(jù)做預(yù)處理,得到一條單一動作編碼序列;
所述對每個訓(xùn)練樣本集中的每個人體全身動作視頻數(shù)據(jù)做預(yù)處理,得到一條單一動作編碼序列的具體操作步驟為:
步驟1.1:利用人體骨架提取工具從每個人體全身動作視頻的每幀圖像中提取人的骨架信息;
所述骨架信息為人體關(guān)節(jié)點在三維體感攝像機(jī)所建立的原始坐標(biāo)系上的三維坐標(biāo)值;所述人體關(guān)節(jié)點的個數(shù)用符號m表示,m≥10;
步驟1.2:建立矯正坐標(biāo)系;
以脊柱關(guān)節(jié)點為坐標(biāo)原點,以左肩膀關(guān)節(jié)點和右肩膀關(guān)節(jié)點的連線為X軸,以垂直于X軸并指向所述三維體感攝像機(jī)的方向為Z軸,重建右手坐標(biāo)系,第三軸為Y軸,則重建的三維坐標(biāo)系稱為矯正坐標(biāo)系;
步驟1.3:獲得每個人體全身動作視頻的每幀圖像中的全部人體關(guān)節(jié)點在矯正坐標(biāo)系中的坐標(biāo)值,得到矯正骨架信息;
步驟1.4:為了解決因不同人體型不同造成的對矯正骨架信息的影響,對步驟1.3得到的矯正骨架信息進(jìn)行歸一化處理,具體為:
步驟1.4.1:建立人體模型;所述人體模型定義了每兩個相鄰并連接的關(guān)節(jié)點之間的距離;
步驟1.4.2:按照人體模型中定義的相鄰并連接的關(guān)節(jié)點之間的距離,調(diào)整矯正骨架信息,具體操作位:首先保證脊柱關(guān)節(jié)點位置不變;然后對于其它關(guān)節(jié)點,在保證相鄰并連接的兩個相鄰關(guān)節(jié)點連線與矯正坐標(biāo)系所成角度不變的情況下,調(diào)整各個關(guān)節(jié)點的位置,使相鄰并連接的兩個關(guān)節(jié)點的距離與人體模型中與之對應(yīng)的相鄰并連接的兩個關(guān)節(jié)點之間的距離相等;
經(jīng)過步驟1.4的操作,得到歸一化處理后的矯正骨架信息;
步驟1.5:得到每個人體全身動作視頻對應(yīng)的單一動作編碼序列;
將每個人體全身動作視頻的每幀圖像對應(yīng)的歸一化處理后的矯正骨架信息中的m個人體關(guān)節(jié)點的三維坐標(biāo)信息,組成一個3×m維的向量;然后通過K均值聚類算法對訓(xùn)練數(shù)據(jù)中全部人體全身動作視頻中的各幀圖像對應(yīng)的3×m維向量進(jìn)行聚類,并將各幀圖像用一個距離最近的聚類中心的序號來表示,該序號稱為聚類編碼;因此,一個人體全身動作視頻用一組代表各幀圖像的聚類編碼的有序序列表示,該有序序列稱為單一動作編碼序列;
通過步驟1.5的操作,將每個人體全身動作視頻表示為一個單一動作編碼序列;
步驟二、建立HMM分類器;
在步驟一操作的基礎(chǔ)上,建立HMM分類器;所述HMM分類器的模型參數(shù)為λ={N,M,AN×N,BN×M,π,o};其中,N表示模型的隱式狀態(tài)數(shù),5≤N≤10;M為顯式狀態(tài)數(shù)量,即步驟一第5步中所述對訓(xùn)練數(shù)據(jù)中全部人體全身動作視頻中的各幀圖像對應(yīng)的3×m維向量進(jìn)行聚類后的聚類數(shù)量;AN×N為N×N的狀態(tài)轉(zhuǎn)移概率矩陣;BN×M為N×M混淆矩陣,即隱式狀態(tài)轉(zhuǎn)移到顯式狀態(tài)的概率矩陣;π為初始隱式狀態(tài)分布N維向量;o為最終隱式狀態(tài)分布N維向量,表示最終的隱式狀態(tài)的分布情況,用于輔助判斷動作的起始位置;
步驟三、訓(xùn)練HMM分類器;
在步驟二操作的基礎(chǔ)上,同時訓(xùn)練Q個HMM分類器,Q表示訓(xùn)練數(shù)據(jù)中人體全身動作類別的數(shù)量;即:對應(yīng)每一種人體全身動作,訓(xùn)練一個HMM分類器;用φq表示第q種人體全身動作對應(yīng)的HMM分類器,1≤q≤Q;
所述識別過程的具體實施步驟如下:
步驟四、對待識別人體全身連續(xù)動作視頻x進(jìn)行預(yù)處理,得到待識別人體全身連續(xù)動作視頻x的連續(xù)動作編碼序列;
所述待識別人體全身連續(xù)動作視頻x包括1個以上人體全身動作;
步驟4.1:利用人體骨架提取工具從待識別人體全身連續(xù)動作視頻x的每幀圖像中提取人的骨架信息,其包含的關(guān)節(jié)點與步驟1.1中所述骨架信息中包含的關(guān)節(jié)點相同;
步驟4.2:建立矯正坐標(biāo)系;
以脊柱關(guān)節(jié)點為坐標(biāo)原點,以左肩膀關(guān)節(jié)點和右肩膀關(guān)節(jié)點的連線為X軸,以垂直于X軸并指向所述三維體感攝像機(jī)的方向為Z軸,重建右手坐標(biāo)系,第三軸為Y軸,則重建的三維坐標(biāo)系稱為矯正坐標(biāo)系;
步驟4.3:獲得待識別人體全身連續(xù)動作視頻x的每幀圖像中的人體關(guān)節(jié)點在矯正坐標(biāo)系中的坐標(biāo)值,得到矯正骨架信息;
步驟4.4:為了解決因不同人體型不同造成的對矯正骨架信息的影響,對第4.3步得到的矯正骨架信息進(jìn)行歸一化處理,得到歸一化處理后的矯正骨架信息;
步驟4.5:得到待識別人體全身連續(xù)動作視頻x對應(yīng)的連續(xù)動作編碼序列;
將待識別人體全身連續(xù)動作視頻x對應(yīng)的歸一化處理后的矯正骨架信息中的m個人體關(guān)節(jié)點的三維坐標(biāo)信息,組成一個3×m維的向量;然后利用步驟一第5步得到的K個聚類中心,將待識別人體全身連續(xù)動作視頻x的各幀圖像用一個距離最近的聚類中心的序號來表示,得到連續(xù)動作編碼序列;
步驟五、通過步驟三得到的Q個HMM分類器,得到待識別人體全身連續(xù)動作視頻x包含的動作類別序列,具體過程為:
步驟5.1:依次從待識別人體全身連續(xù)動作視頻x的每一幀圖像中找出活躍關(guān)節(jié);具體為:
分別計算當(dāng)前圖像幀中的每個關(guān)節(jié)與前一圖像幀中的對應(yīng)關(guān)節(jié)的距離,并將距離最大的關(guān)節(jié)作為備選活躍關(guān)節(jié);如果備選活躍關(guān)節(jié)與前一幀圖像的活躍關(guān)節(jié)不是同一關(guān)節(jié),則判斷d2≤2×d1是否成立,如果成立,則將前一幀圖像的活躍關(guān)節(jié)確定為當(dāng)前幀圖像的活躍關(guān)節(jié);否則,將當(dāng)前幀的備選活躍關(guān)節(jié)確定為當(dāng)前幀圖像的活躍關(guān)節(jié);其中,d1表示前一圖像幀中的活躍關(guān)節(jié)與當(dāng)前圖像幀中的對應(yīng)關(guān)節(jié)的距離;d2表示當(dāng)前圖像幀中的備選活躍關(guān)節(jié)與前一圖像幀中的對應(yīng)關(guān)節(jié)的距離;此方法可以避免因為同時有兩個關(guān)節(jié)在運(yùn)動而造成的活躍關(guān)節(jié)在二者之間來回變換;
步驟5.2:對待識別人體全身連續(xù)動作視頻x進(jìn)行分割;具體為:
步驟5.2.1:當(dāng)相鄰兩幀圖像的活躍關(guān)節(jié)發(fā)生變化時,在兩幀圖像之間進(jìn)行分割;分割后的每一段視頻稱為一個圖像子序列;
步驟5.2.2:對于步驟5.2.1得到的每個圖像子序列,按照動作快慢進(jìn)行分割;具體為:用D表示當(dāng)前圖像子序列中每幀圖像的活躍關(guān)節(jié)的平均活動距離,所述活動距離為圖像中的活躍關(guān)節(jié)與前一圖像幀中的對應(yīng)關(guān)節(jié)的距離;如果同時滿足以下3個條件:①前一幀活躍關(guān)節(jié)的活動距離不大于0.3×D;②當(dāng)前幀活躍關(guān)節(jié)的活動距離大于0.3×D;③當(dāng)前幀之前的連續(xù)e幀圖像活躍關(guān)節(jié)的活動距離均不大于0.3×D;則在當(dāng)前幀與前一幀圖像之間做分割;其中,5≤e≤15;經(jīng)過步驟5.2.2的操作,得到更多圖像子序列;
步驟5.2.3:對于步驟5.2.2得到的每個圖像子序列按照動作變化角度進(jìn)行分割;具體為:用p1表示前一幀活躍關(guān)節(jié);用p2表示當(dāng)前幀活躍關(guān)節(jié);用p3表示后一幀活躍關(guān)節(jié);如果向量與向量的夾角大于60度,則在當(dāng)前幀與下一幀之間做分割;
經(jīng)過步驟5.2的操作,完成對待識別人體全身連續(xù)動作視頻x的分割,得到的圖像子序列的數(shù)量用符號H表示,H≥1;
步驟5.3:選出候選動作;
依次對步驟5.2得到的每一個圖像子序列分別進(jìn)行如下操作:從步驟四得到的連續(xù)動作編碼序列中,找到當(dāng)前圖像子序列對應(yīng)的編碼序列,并將其分別輸入到步驟三得到的Q個HMM分類器,選擇概率值最高的C個HMM分類器對應(yīng)的動作作為候選動作,記為Lh={lh,g|g=1,2,...,C},Lh表示第h個圖像子序列的候選動作集合;lh,g表示第h個圖像子序列的第g個候選動作;C表示每個圖像子序列的候選動作數(shù)量;其中,3≤C≤5;
步驟5.4:確定動作類別序列;通過改進(jìn)的維特比算法依次對每個圖像子序列求解最優(yōu)動作類別;具體為:
步驟5.4.1:通過公式(6)依次計算待識別人體全身連續(xù)動作視頻x的第h個圖像子序列為候選動作集合中第J個候選動作的能量值(用符號Ωh,J表示);其中,1≤h≤H;1≤J≤C;
其中,U表示第U個圖像子序列的動作不是候選動作集合中第J個候選動作,但第U+1個圖像子序列到當(dāng)前圖像子序列的動作都為候選動作集合中第J個候選動作,U∈[1,J-1];lU,J表示第U個圖像子序列的第J個候選動作;δ是一個常數(shù)懲罰項,δ=0.6;λh,J,I可通過公式(7)計算得到;Θh,J,I可通過公式(10)計算得到;
其中,可通過公式(8)計算得到;可通過公式(9)計算得到;
其中,Φh,J表示第h個圖像子序列由第g個候選動作第J個候選動作對應(yīng)的HMM分類器輸出的概率;Φh,I′表示第h個圖像子序列由第I′個候選動作對應(yīng)的HMM分類器輸出的概率;
其中,表示第K個圖像子序列由第J個候選動作對應(yīng)的HMM分類器輸出的概率;
其中,Φ<U+1,h>,J表示從U+1個圖像子序列到第h個圖像子序列由第J個候選動作對應(yīng)的HMM分類器輸出的概率;η是一個常數(shù)因子,η;可通過公式(11)計算得到;οJend(h)可通過公式(12)計算得到;
其中,beg(U+1)表示第U+1個圖像子序列對應(yīng)的編碼序列里第一個編碼值;BJ,i,beg(U+1)表示第J個候選動作對應(yīng)的HMM分類器的混淆矩陣第i行第beg(U+1)列的元素值;πJ,i表示第J個候選動作對應(yīng)的HMM分類器的初始隱式狀態(tài)分布概率向量第i個元素值;
其中,end(h)表示第h個圖像子序列對應(yīng)的編碼序列里最后一個編碼值;BJ,i,end(h)表示第J個選動作對應(yīng)的HMM分類器的混淆矩陣第i行第end(h)列的元素值;σJ,i表示第J個選動作對應(yīng)的HMM分類器的最終隱式狀態(tài)分布概率向量第i個元素值;
步驟5.4.2:對于待識別人體全身連續(xù)動作視頻x的每個圖像子序列,從步驟5.4.1計算得到的其候選動作集合中候選動作的能量值中選擇最大值,將最大值對應(yīng)的候選動作,作為該圖像子序列的動作類別;
經(jīng)過步驟五的操作,即可得到待識別人體全身連續(xù)動作視頻x包含的動作類別序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510035514.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





