[發明專利]一種用于手語識別的時空Transformer動作識別方法在審
| 申請號: | 202210728481.2 | 申請日: | 2022-06-24 |
| 公開(公告)號: | CN115205966A | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 袁甜甜;喬明陽;薛翠紅;楊學;蔡佳良 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 手語 識別 時空 transformer 動作 方法 | ||
一種用于手語識別的時空Transformer動作識別方法,為了能夠應用到手語識別方面,是因為手語識別是動作識別的一個分支,就是說手語屬于動作,因此采用基于視頻時空Transformer的動作識別的方法,用有卷積的操作對視頻幀切成每一個塊進行提取特征,通過利用LSTM模塊的作用是對視頻幀進行關聯,并保留可能有用的視頻動作信息特征,利用時間注意力機制和空間注意力機結合形成時空Transformer的方法,可增強動作識別的特征表達能力,從而可以實現應用到手語識別的方面。本發明主要解決健全人與聾人的交流與溝通。
技術領域
本發明涉及到計算機視覺,人工智能,數據挖掘,深度學習等技術領域。具體涉及一種基于視頻時空Transformer動作識別的方法應用到手語識別方面。
背景技術
隨著人工智能的發展,計算機視覺或機器視覺受到許多科研人的關注,計算機視覺在人工智能方面有很多應用實際起到作用,如:圖像識別、目標檢測/目標跟蹤、人臉檢測、物體檢測、姿態識別等。在深度學習技術興起之前,傳統計算機視覺需要大量依靠人手工提取的特征的方法。隨著互聯網的發展,數據的數量呈指數級增長,同時GPU硬件成本越來越昂貴,以深度神經網絡代表的深度學習逐漸興起。近年以來,Transformer是自然語言處理的領域中最流行的模型方法,許多計算機視覺領域的科研人借鑒自然語言處理Transformer模型的方法,并且把Transformer模型的改進方法,完全適應了計算機視覺領域的方法。因此,人們見證了深度學習具有強大的的表示學習能力,不需要人手工進行復雜的特征和規則提取制定,就能讓深度網絡學習并理解到某種知識。所以,利用計算機視覺的深度學習技術的知識,設計一種基于視頻時空Transformer的動作識別的方法能夠應用到手語識別方面。
發明內容
為了克服現有技術的不足和解決聾人手語的問題,本發明人提供一種用于手語識別的時空Transformer動作識別方法,用來解決動作視頻的識別的問題,同時解決把動作識別應用到手語識別的方面的問題,從而計算機能夠學會識別手語者表達的意思,實現健聽人和聾人的交流與溝通。
為了解決上述技術問題本發明提供如下的技術方案:
一種用于手語識別的時空Transformer動作識別方法,所述方法包括以下步驟:
1)視頻數據集x∈XB×C×T×W×H,其中,B表示視頻數據集的批大小,T表示視頻幀的長度,W和H表示視頻幀的寬和高,C表示視頻幀的通道的數量,通過采取2D CNN操作進行提取視頻幀的特征:
x′=reshape(x) (1)
其中x代表視頻數據集,x′是重新調整維度形狀大小的視頻數據集;由公式(1)可知2D CNN對視頻數據集x∈XB×C×T×H×W無法操作,因此先把視頻數據集x的維度大小進行壓縮,壓縮后得到x′∈X(B·T)×C×H×W,就可以實現2D CNN的操作;然后通過2D卷積函數對x′進行提取特征,2D卷積函數中設置卷積核大小為16和步長大小為16,因為圖像識別VisionTransoformer中圖像塊大小相等于2D卷積的卷積核大小和步長大小,將2D卷積提取特征的應用為:
其中表示2D卷積函數,kernel表示卷積核,stride表示步長,Flatten(·)表示將輸出的四維度進行扁平化成三維度z∈X(B·T)×D×N(N是Ho·Wo),接下來使用矩陣進行轉置并且重新調整維度大小,最終得到z∈XB×(N·T)×D,其中N表示視頻幀的塊數,相當于圖像識別Vision Transformer的圖片分割成每一塊的數量,D表示經過卷積提取的特征大小,之后進行位置嵌入操作,對已保留的位置信息,定義為:
z0=zE+Epos (3)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210728481.2/2.html,轉載請聲明來源鉆瓜專利網。





