[發明專利]一種基于人體關鍵點的實時視頻流手語識別方法在審
| 申請號: | 202211054559.3 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115457654A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 鄭雅羽;張子涵;張欽楠 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V40/10;G06V20/40;G06V10/82;G06V10/764;G06N3/04;G06N3/08 |
| 代理公司: | 杭州賽科專利代理事務所(普通合伙) 33230 | 代理人: | 宋飛燕 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人體 關鍵 實時 視頻 手語 識別 方法 | ||
1.一種基于人體關鍵點的實時視頻流手語識別方法,其特征在于:
所述方法包括以下步驟:
步驟1:逐幀讀取輸入的手語視頻流;
步驟2:采用人體姿態估計網絡,提取讀取的任一幀圖像中的人體關鍵點;
步驟3:逐幀計算當前幀與上一幀的動作差異度并進行累加;
步驟4:當t時間內累積的差異度高于閾值T1時,判定為手語動作開始;當差異度低于閾值T2時,判定為動作靜止,采用卷積神經網絡判斷當前幀動作是否為結束動作;T1>T2>0;
步驟5:保存從手語動作開始到結束的時間段內,所有幀的人體關鍵點數據,得到人體關鍵點序列;
步驟6:采用時空圖卷積網絡,對步驟5中的人體關鍵點序列進行特征提取,得到特征序列X;
步驟7:采用編碼器-解碼器網絡,以步驟6中的特征序列X作為輸入,輸出完整的句子,實現連續手語識別。
2.根據權利要求1所述的一種基于人體關鍵點的實時視頻流手語識別方法,其特征在于:所述步驟2包括以下步驟:
步驟2.1:將任一幀圖像輸入人體姿態估計網絡,輸出關鍵點信息v,
v={(x1,y1,c1),(x2,y2,c2),...,(xM,yM,cM)}
其中M表示輸出的關鍵點個數,以xi、yi、ci分別表示第i個關鍵點的x坐標、y坐標和預測置信度,M≥1,i為關鍵點的索引;
步驟2.2:篩選對于手語識別的關鍵點,記為
v′={(x1,y1,c1),(x2,y2,c2),...,(xN,yN,cN)
其中,N為關鍵點個數,1≤N≤M。
3.根據權利要求1所述的一種基于人體關鍵點的實時視頻流手語識別方法,其特征在于:所述步驟3包括以下步驟:
步驟3.1:讀取當前幀的關鍵點坐標,
P={(x1,y1),(x2,y2),...,(xN,yN)}
以Pcur為當前幀的關鍵點坐標集合,以Ppre為上一幀的關鍵點坐標集合,若當前幀是視頻流的第一幀,則令Pcur=P,Ppre=P,否則,令Pcur=P;
步驟3.2:使用當前幀與上一幀對應的關鍵點之間的歐氏距離計算相鄰幀的關鍵點在空間上的差異度δ,
其中,x_curi和y_curi分別表示當前幀的關鍵點坐標集合Pcur中第i個關鍵點的x坐標和y坐標;x_prei和y_prei分別表示前一幀關鍵點坐標集合Ppre中第i個關鍵點的x坐標和y坐標;
步驟3.3:重復步驟3.2,將差異度δ保存在隊列中;隊列長度為L,L=t×fps,其中t表示時間閾值,fps表示視頻流每秒傳輸的幀數。
4.根據權利要求3所述的一種基于人體關鍵點的實時視頻流手語識別方法,其特征在于:所述步驟4中,對于t時間內累積的差異度S,當S>T1時,表示手語動作開始,當S<T2時,表示動作靜止,把當前幀圖像輸入卷積神經網絡中,若判斷為無效手語動作,則表示手語動作結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211054559.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種成人脫脂乳制品及其制備工藝
- 下一篇:一種水利工程用水利管道連接裝置





