[發明專利]一種基于人體關鍵點的實時視頻流手語識別方法在審
| 申請號: | 202211054559.3 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115457654A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 鄭雅羽;張子涵;張欽楠 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V40/10;G06V20/40;G06V10/82;G06V10/764;G06N3/04;G06N3/08 |
| 代理公司: | 杭州賽科專利代理事務所(普通合伙) 33230 | 代理人: | 宋飛燕 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人體 關鍵 實時 視頻 手語 識別 方法 | ||
本發明涉及一種基于人體關鍵點的實時視頻流手語識別方法,逐幀讀取手語視頻流,采用人體姿態估計網絡提取人體關鍵點;基于累積的差異度判斷手語動作開始、動作靜止,以卷積神經網絡判斷結束動作;結束后,保存從手語動作開始到結束的時間段內所有幀的人體關鍵點數據,以時空圖卷積網絡對人體關鍵點序列進行特征提取,將得到的特征序列輸入編碼器?解碼器網絡,輸出完整的句子,實現連續手語識別。本發明可以進行實時視頻流的連續手語識別,可以避免人物衣著、環境光照等因素對算法的影響,能夠有效提升語句級的連續手語識別的精度。
技術領域
本發明涉及計算;推算或計數的技術領域,特別涉及一種圖像處理與模式識別領域的基于人體關鍵點的實時視頻流手語識別方法。
背景技術
聽障者無法便捷地獲取信息和表達意愿,往往在社交、教育、就業等方面存在諸多困難,這是因為大部分的聽障者通常采用手語進行交流,然而能夠理解手語的聽人是極少的。手語作為一門視覺語言,與普通人使用的聽覺語言存在語法、表達上的不同,在不同的國家和地區,手語往往也存在差異。手語識別技術旨在將不同地區和國家的手語翻譯為對應的書面語言,解決聽障者的溝通難題。
手語識別技術通常以手語圖像或視頻作為輸入,對不同的手語動作進行特征提取和分類,最終輸出文本語句。目前手語識別分為孤立詞識別和連續語句識別,前者是對單個手語詞匯的識別,后者是對一系列手語詞匯組成的完整語句的識別。顯然,對于連續語句的手語識別更具有實際意義。目前的連續語句手語識別僅關注單個語句的識別,對于視頻長度往往有限制,對于包含多句手語語句的視頻,需要通過人為的分割,然而實際應用中,往往面臨的是視頻流信息,通常的連續手語識別方法難以端到端地進行實時手語識別。
論文“Spatial Temporal Graph Convolutional Networks for Skeleton-BasedAction Recognition”將時空圖卷積方法引入了動作識別領域,對于手語識別領域的研究具有重要的意義,目前是手語識別的常用方法之一。
編碼器-解碼器模型常用于序列到序列的轉換問題,連續手語識別也可以看作是視頻序列到詞語序列的轉換問題,因此,編碼器-解碼器模型對于解決手語識別問題非常有效。
申請號為CN202010301154.X的中國專利公開了一種手語識別方法和系統,該方法先將采集的視頻幀通過卷積神經網絡提取特征幀,再將特征幀輸入到預設的分層長短期記憶網絡,提取有效幀,最后將有效幀輸入到預設的手語識別模型,輸出與手語視頻對齊的目標語句文本。該方法基于 RGB圖像進行特征提取,識別效果可能受環境等因素影響,且僅適用于一定長度內的手語視頻的識別,難以處理視頻流信息。
申請號為CN202010648991.X的中國專利公開了一種基于時空語義特征的手語識別系統及方法,該方法首先對輸入的手語視頻數據進行數據預處理及分幀處理,再將分幀后的一系列視頻片段通過時空特征模塊進行特征提取,接著通過對特征序列的語義挖掘及解碼處理,最終輸出對應的文本信息。該方法使用長度固定的分幀策略,僅使用于單句話的識別場景,當對視頻流進行處理時,不能很好地區分前后語句,容易導致翻譯的語義混亂。
發明內容
本發明解決了現有技術中存在的問題,提供了一種基于人體關鍵點的實時視頻流手語識別方法,針對實時的視頻流,解決了視頻流手語語句分割的問題,基于人體關鍵點,有效降低任務衣著、環境光照的等因素對算法的影響;通過本發明可以對較長的手語視頻流或實時手語視頻流進行語句級的手語識別。
本發明所采用的技術方案是,一種基于人體關鍵點的實時視頻流手語識別方法,所述方法包括以下步驟:
步驟1:逐幀讀取輸入的手語視頻流;
步驟2:采用人體姿態估計網絡,提取步驟1讀取的任一幀圖像中的人體關鍵點,包括但不限于頭部、軀干、雙手的節點,用于標識人體姿態;
步驟3:逐幀計算當前幀與上一幀的動作差異度并進行累加;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211054559.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種成人脫脂乳制品及其制備工藝
- 下一篇:一種水利工程用水利管道連接裝置





