[發明專利]一種基于跨模態數據增廣的連續手語識別方法有效
| 申請號: | 202011060274.1 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112149603B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 李厚強;周文罡;胡鶴臻;蒲俊福 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/774;G06V10/82;G06K9/62;G06F40/30;G06N3/04 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 跨模態 數據 增廣 連續 手語 識別 方法 | ||
本發明公開了一種基于跨模態數據增廣的連續手語識別方法,通過對原始視頻?文本數據進行隨機刪除、插入、替換等操作,生成一系列帶有標注的偽視頻?文本數據,對現有數據集進行擴增,從而達到擴大數據規模的目的。基于原始數據和增廣數據,本發明設計了全新的多目標優化函數,旨在進行弱監督視頻?文本對齊學習的同時,縮小視頻與對應文本之間的跨模態距離,同時使網絡能夠區分真實數據與增廣偽數據之間的差異。通過跨模態數據增廣與多任務學習,提升連續手語識別性能。
技術領域
本發明涉及計算機視覺中的動作識別技術領域,尤其涉及一種基于跨模態數據增廣的連續手語識別方法。
背景技術
連續手語識別旨在將輸入手語視頻以一致的順序轉換成手語詞的序列。對于視頻手語識別方法,視覺編碼器首先將輸入視頻轉換為高維度的特征表達,然后序列模型學習從特征表達到對應的文本序列的映射。
1)視頻表征學習。
有辨別力的視頻特征表達在手語識別中扮演著十分重要的角色。早期的工作聚焦于手工特征,比如HOG或者HOG-3D、運動軌跡和SIFT等。這些特征被用于描述手型、手的指向和運動狀態。隨著卷積神經網絡的成功應用,許多網絡被設計用于視頻表征學習,它們通?;?D卷積神經網絡、3D卷積神經網絡或者是二者的結合。
2)深度學習中的數據增廣。
數據增廣是一種非常有效的緩解過擬合的方法,它能夠幫助網路從數據集中提取更多的信息。數據增廣包含一系列方法用于增強訓練數據的質量和尺寸,已經被成功應用于不同的深度學習方法中。對于圖像任務,如圖像分類、目標檢測等,圖像增廣方法包括幾何變換(如旋轉、翻轉等)、顏色空間變換(如RGB到HSV)、核濾波、隨機擦除等。對于視頻任務,如動作識別、跟蹤等,除了在空間上的圖像增強方法外,數據增廣還可以在時間維度上進行,如時間上的隨機采樣。在自然語言處理中,增廣文本序列的方法包括同義詞替換、隨機交換、隨機刪除等?,F有方法中,增廣后的樣本和原始數據有著相同的標簽,并且優化損失函數不變。
現有的連續手語識別方案主要存在如下兩方面的缺陷:
1)現有的連續手語識別方法通常采用CTC作為目標函數并通過束搜索策略進行解碼出若干候選集并選取生成概率最大的候選序列作為最終解碼結果。由于CTC目標函數與評測標準的不一致性,具有最大概率的候選序列并不能保證在誤字率評測指標下是最優的,導致最優候選序列不能準確被選出,從而使得系統識別性能下降。
2)基于深度神經網絡的連續手語識別算法依賴于大規模標注手語數據,而手語數據需要專業的手語從業人員進行標注,標注過程復雜,代價昂貴,因而現有手語數據集規模受限,這不利于用于手語識別的深度神經網絡的訓練,亟需提出基于現有數據集的數據增廣算法和識別框架。
發明內容
本發明的目的是提供一種基于跨模態數據增廣的連續手語識別方法,通過跨模態數據增廣算法,可以生成海量的帶標注數據的手語視頻-文本對,并設計不同類型損失函數,旨在縮小視頻與對應文本之間的跨模態距離,同時使得識別模型能夠區分真實與增廣偽數據模態之間的差異,從而提高連續手語識別性能。
本發明的目的是通過以下技術方案實現的:
一種基于跨模態數據增廣的連續手語識別方法,包括:
訓練階段,基于跨模態數據增廣算法,結合真實視頻-文本對,生成偽視頻-文本對;
將真實視頻-文本對、以及偽視頻-文本對輸入至識別模型中,利用識別模型中的視覺編碼器將真實視頻與偽視頻編碼為視覺語義特征,利用識別模型中的序列模型捕獲視覺語義特征的時間依賴性,并學習視覺語義特征與相應文本中手語詞之間的映射,輸出相應的隱狀態,進而通過CTC解碼模型預測出輸入視頻對應的手語單詞序列;
利用對齊損失、真偽區分性損失和跨模態語義一致損失訓練識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011060274.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





