[發明專利]一種基于跨模態數據增廣的連續手語識別方法有效
| 申請號: | 202011060274.1 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112149603B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 李厚強;周文罡;胡鶴臻;蒲俊福 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/774;G06V10/82;G06K9/62;G06F40/30;G06N3/04 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 跨模態 數據 增廣 連續 手語 識別 方法 | ||
1.一種基于跨模態數據增廣的連續手語識別方法,其特征在于,包括:
訓練階段,基于跨模態數據增廣算法,結合真實視頻-文本對,生成偽視頻-文本對;
將真實視頻-文本對、以及偽視頻-文本對輸入至識別模型中,利用識別模型中的視覺編碼器將真實視頻與偽視頻編碼為視覺語義特征,利用識別模型中的序列模型捕獲視覺語義特征的時間依賴性,并學習視覺語義特征與相應文本中手語詞之間的映射,輸出相應的隱狀態,進而通過CTC解碼模型預測出輸入視頻對應的手語單詞序列;
利用對齊損失、真偽區分性損失和跨模態語義一致損失訓練識別模型;
視頻的視覺語義特征以及文本的文本特征位于同一特征空間中,將真實視頻的對應的隱狀態、真實文本的文本特征、偽視頻的對應的隱狀態、偽文本的文本特征,分別記為:將特征分為兩組,和
真實視頻的語義特征為錨點的真偽區分性損失函數為:
真實文本的文本特征為錨點的真偽區分性損失函數為:
其中,指代三元組損失函數,指代距離函數,α是一個超參數;
最終的真偽區分性損失為上述兩個部分的相加:
2.根據權利要求1所述的一種基于跨模態數據增廣的連續手語識別方法,其特征在于,
對齊損失為:對于真實視頻與偽視頻,均利用CTC損失函數學習視頻與文本之間的對齊;
真偽區分性損失為:首先通過文本編碼器將真實文本與偽文本編碼至與視覺語義特征相同的特征空間,將真實視頻對應的隱狀態作為錨點,真實文本的文本特征、偽文本的文本特征分別作為正樣本、負樣本,以及將真實文本的文本特征作為錨點,真實視頻對應的隱狀態、偽視頻對應的隱狀態分別作為正樣本、負樣本,使用三元組損失函數最小化錨點與正樣本之間的距離,同時最大化錨點與負樣本之間的距離;
跨模態語義一致損失為:最小化真實視頻-文本對的特征空間中距離。
3.根據權利要求1所述的一種基于跨模態數據增廣的連續手語識別方法,其特征在于,所述基于跨模態數據增廣算法,結合真實視頻-文本對,生成偽視頻-文本對包括:
給定一個真實視頻-文本對,首先替換、插入或刪除真實文本中的一個詞,并重復操作多次;插入或替換的新詞是隨機從訓練集中的詞庫中選取;與此同時,根據在迭代優化階段得到的對齊標簽在真實視頻上進行對應的操作,所述對齊標簽是通過解碼得到的真實視頻與之對應手語單詞序列之間的對齊標簽;再進行k次編輯操作,每次操作都從替換、插入和刪除中隨機選取,同時,k隨機從[1,K]中選取,K為編輯操作次數的上限;通過上述方式生成數目滿足要求的偽視頻-文本對。
4.根據權利要求1所述的一種基于跨模態數據增廣的連續手語識別方法,其特征在于,所述視覺編碼器中包含依次設置的空間編碼器Evs和時間編碼器Evt;
給定一個有T幀的視頻其輸出的視覺語義特征f定義為:
f=Evt(Evs(V))
其中,vt表示第t個視頻幀,C2為特征通道數目。
5.根據權利要求1所述的一種基于跨模態數據增廣的連續手語識別方法,其特征在于,所述序列模型的輸入為視覺語義特征f,輸出相應時刻的隱狀態,表示為:
fv=Sbi(f)
其中,C3指代隱狀態的單元數,T為視頻中的幀數。
6.根據權利要求1或2所述的一種基于跨模態數據增廣的連續手語識別方法,其特征在于,對于真實視頻-文本對與偽視頻-文本對,輸入至識別模型不同的支路,對于每個支路,CTC損失函數被用于學習視頻與文本之間的對齊;
標記真實視頻和偽視頻分別為Vr和Vp,定義兩個CTC損失函數作為對齊損失
其中,和分別是真實視頻和偽視頻對應的CTC損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011060274.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





