[發明專利]一種可預訓練手模型感知表征的手語識別系統有效
| 申請號: | 202110553174.0 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113239834B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 李厚強;周文罡;胡鶴臻;趙偉超 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V40/10;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 模型 感知 表征 手語 識別 系統 | ||
本發明公開了一種可預訓練手模型感知表征的手語識別系統,系統包含自監督預訓練和下游任務微調兩個階段,這兩個階段依次進行,系統融合了模型與數據驅動的范式,通過引入手型先驗,并結合遮罩建模策略,更好地捕捉到了手語視頻中多層級的上下文信息,經過良好的預訓練后,只需要簡單的微調,即可使下游任務的性能增強,具有良好的應用前景。
技術領域
本發明涉及手語識別技術領域,尤其涉及一種可預訓練手模型感知表征的手語識別系統。
背景技術
手語是一種視覺語言,它是聽障群體的首選交流方式。為了促進聽人與聾人之間的便捷交流,自動手語識別技術應運而生,并被廣泛研究。該技術具有廣泛的社會意義和應用前景。手語識別任務定義為將輸入的一段手語視頻識別為對應的文本,是一個細粒度分類問題。
手在手語的表意中起到主導作用。它通常僅占有相對小的尺寸,具有動態的背景。同時,手展現出類似的外觀,并出現自遮擋現象。這給手的表征學習帶來了很大的困難。部分現有的深度學習方法直接從視頻中裁剪出的RGB視頻序列以數據驅動的方式進行表征學習。考慮到手的高鉸接特性,一些方法將手表示為稀疏的姿態。姿態是一種高階、簡潔和富含語義的表征,可以在外觀變化下具有魯棒性,并帶來潛在的計算便捷性。然而,手的姿態通常是從現有的提取器中得到的,存在檢測失敗和檢測殘缺的問題。這也導致基于手姿態的識別方法性能遠遠低于全RGB的方法。
預訓練的有效性已經被計算機視覺(CV)和自然語言處理(NLP)驗證。在CV任務中,通常會采用先在ImageNet或Kinetics或大型的網絡數據上進行預訓練。NLP任務中,近期進展主要來源于在大型數據上自監督預訓練學習。在這其中,BERT因其簡便和性能優越,成為最成功的方法之一。它的成功主要歸功于強大的基于自注意力機制的Transformer骨干網絡,并結合精心設計的預訓練策略,用于建模文本序列中固有的上下文信息。
現有的手語識別方法采用直接的數據驅動范式,在手語視頻對應的文本下進行監督學習,但是它們通常具有有限的可解釋性。同時,由于手語數據規模的有限性,現有方法通常會過擬合。同樣地,雖然手姿態具有潛在的計算優越性,但是現有姿態提取器對于手語視頻常存在錯誤檢測,導致最終識別性能很低。
發明內容
本發明的目的是提供一種可預訓練手模型感知表征的手語識別系統,通過在大規模數據上的預訓練,可以提高手語識別性能。
本發明的目的是通過以下技術方案實現的:
一種可預訓練手模型感知表征的手語識別系統,包括:手姿態嵌入向量生成模塊、編碼器、手模型感知解碼器以及預測模塊;
在自監督預訓練階段,對于給定的包含雙手的二維手姿態序列隨機選取設定比例的幀數據進行標記,對標記的幀數據以均等概率隨機進行包含遮罩的預處理操作;之后,所有二維手姿態數據均通過手姿態嵌入向量生成模塊生成相應的手姿態嵌入向量,并通過編碼器編碼后由手模型感知解碼器重建出相應的二維手姿態數據,最終,利用標記的幀數據對應的二維手姿態重建結果構建損失函數;
在下游任務微調階段,將手模型感知解碼器替換為預測模塊,利用未遮罩的二維手姿態序列進行編碼器參數與預測模塊參數的微調使得系統能夠用于手語識別任務。
由上述本發明提供的技術方案可以看出,針對手表征學習的困難性和數據的有限性,設計的模型感知的可預訓練的手語識別系統包含自監督預訓練和下游任務微調兩個階段,這兩個階段依次進行,系統融合了模型與數據驅動的范式,通過引入手型先驗,并結合遮罩建模策略,更好地捕捉到了手語視頻中多層級的上下文信息,經過良好的預訓練后,只需要簡單的微調,即可使下游任務的性能增強,具有良好的應用前景。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110553174.0/2.html,轉載請聲明來源鉆瓜專利網。





