[發(fā)明專利]一種連續(xù)手語識別方法有效
| 申請?zhí)枺?/td> | 202010083258.8 | 申請日: | 2020-02-08 |
| 公開(公告)號: | CN111339837B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設計)人: | 于明;秦夢現(xiàn);薛翠紅;郝小可;郭迎春;閻剛;于洋;師碩;劉依 | 申請(專利權)人: | 河北工業(yè)大學;天津理工大學 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V40/20;G06K9/62;G06N3/04 |
| 代理公司: | 天津翰林知識產權代理事務所(普通合伙) 12210 | 代理人: | 胡安朋 |
| 地址: | 300130 天津市紅橋區(qū)*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 連續(xù) 手語 識別 方法 | ||
1.一種連續(xù)手語識別的方法,其特征在于:是基于對多模態(tài)圖像序列特征融合和自注意力機制的編碼解碼網絡的連續(xù)手語識別的方法,首先獲得光流圖像序列,通過原始手語圖像序列和光流圖像序列時空特征的提取和多模態(tài)圖像序列時空特征融合,和手語句子標簽的文本特征序列的提取,將融合后的多模態(tài)圖像序列時空特征和提取的手語句子標簽的文本特征序列輸入到基于自注意力機制的編碼解碼網絡中進行手語標簽預測輸出,具體步驟如下:
第一步,由原始手語圖像序列通過FlowNet網絡提取獲得光流圖像序列:
對輸入的含有n幀圖像的原始手語圖像序列X=(x1,x2,...,xn),其中,n為圖像序列的幀序數,x1、x2、…、xn分別為原始手語圖像序列的第一幀、第二幀、…、第n幀,通過FlowNet網絡提取相鄰圖像間的光流場,每個手語圖像序列間的光流場組成光流圖像序列,得到的含有n幀圖像的光流圖像序列為X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分別為光流圖像序列的第一幀、第二幀、…、第n幀;
第二步,原始手語圖像序列和光流圖像序列時空特征的提取和多模態(tài)圖像序列時空特征融合:
通過三維卷積殘差網絡對上述第一步所述的原始手語圖像序列和光流圖像序列進行時空特征提取和多模態(tài)圖像序列時空特征融合,具體操作如下,
第(2.1)步,原始手語圖像序列和光流圖像序列的時空特征的提取:
第(2.1.1)步,原始手語圖像序列的時空特征的提取:
將上述第一步中輸入的含有n幀圖像的原始手語圖像序列輸入到第一個三維卷積殘差網絡進行提取原始手語圖像序列在第一個三維卷積殘差網絡前兩層卷積層和池化層的時空特征,操作如下:
將上述第一步中的輸入的含有n幀圖像的原始手語圖像序列X=(x1,x2,...,xn)以16幀為一個原始手語圖像序列組輸入到第一個三維卷積殘差網絡前兩層卷積層和池化層,輸入的圖像序列重新定義為其中T=n/16,t=1,...,T,t為第t個16幀為一組的融合后的多模態(tài)圖像序列組,該輸入的原始手語圖像序列在該第一個三維卷積殘差網絡中的第一層卷積層之后的第一層池化層輸出的原始手語圖像序列時空特征的表達為如下公式(1)所示,
公式(1)中,maxpooling為最大池化函數,f為激活函數ReLU,f(F(vt,W1a))為該輸入的原始手語圖像序列在該第一個三維卷積殘差網絡中的第一層卷積層輸出的原始手語圖像序列時空特征,F(xiàn)(vt,W1a)為將原始手語圖像序列輸入到第一個三維卷積殘差網絡的第一層卷積層后的非線性映射的結果,W1a為原始手語圖像在第一個三維卷積殘差網絡的第一層卷積層中的權重,
該輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第二層卷積層之后的第二層池化層輸出的原始手語圖像序列時空特征的表達為如下公式(2)所示,
公式(2)中,為該輸入的原始手語圖像序列在該第一個三維卷積殘差網絡中的第二層卷積層輸出的原始手語圖像序列時空特征,為將上述第一層池化層輸出的原始手語圖像序列時空特征輸入到第一個三維卷積殘差網絡的第二層卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第二層卷積層中的權重,由此完成原始手語圖像序列在第一個三維卷積殘差網絡前兩層卷積層和池化層的時空特征的提取;
第(2.1.2)步,光流圖像序列的時空特征的提取:
將上述第一步中輸入的含有n幀圖像的光流圖像序列輸入到第二個三維卷積殘差網絡進行提取光流圖像序列在第二個三維卷積殘差網絡前兩層卷積層和池化層的時空特征,操作如下:
上述第一步中得到的含有n幀圖像的光流圖像序列X'=(x'1,x'2,...,x'n)以16幀為一個光流圖像序列組輸入到第二個三維卷積殘差網絡的前兩層卷積層和池化層,輸入的光流圖像序列為其中T=n/16,t=1,...,T,該輸入的光流圖像序列在該第二個三維卷積殘差網絡中的第一層卷積層之后的第一層池化層輸出的光流圖像序列時空特征的表達為如下公式(3)所示,
公式(3)中,maxpooling為最大池化函數,f(F(v't,W1m))為該輸入的光流圖像序列在該第二個三維卷積殘差網絡中的第一層卷積層輸出的光流圖像序列時空特征,F(xiàn)(v't,W1m)為將光流圖像序列輸入到第二個三維卷積殘差網絡的第一層卷積層后的非線性映射的結果,W1m為光流圖像序列在第二個三維卷積殘差網絡的第一層卷積層中的權重;
該輸入的光流圖像序列在第二個三維卷積殘差網絡中的第二層卷積層之后的第二層池化層輸出的光流圖像序列時空特征的表達為如下公式(4)所示,
公式(4)中,為該輸入的光流圖像序列在該第二個三維卷積殘差網絡中的第二層卷積層輸出的光流圖像序列時空特征,為將上述第一層池化層輸出的光流圖像序列時空特征輸入到第二層卷積層后的非線性映射的結果,為光流圖像序列在第二個三維卷積殘差網絡中的第二層卷積層中的權重,由此完成光流圖像序列在第二個三維卷積殘差網絡前兩層卷積層和池化層的時空特征的提取;
至此完成原始手語圖像序列和光流圖像序列的時空特征的提取;
第(2.2)步,多模態(tài)圖像序列時空特征融合:
將上述第(2.1.1)步提取的原始手語圖像序列在第一個三維卷積殘差網絡前兩層卷積層和池化層的時空特征和上述第(2.1.2)步提取的光流圖像序列在第二個三維卷積殘差網絡前兩層卷積層和池化層的時空特征在三維卷積殘差網絡后三個層卷積層和池化層進行多模態(tài)圖像序列時空特征融合,操作如下:
上述第(2.1.1)步所述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第三層卷積層中的第一個卷積層輸出的原始手語圖像序列時空特征的表達為如下公式(5)所示,
公式(5)中,為將上述第一個三維卷積殘差網絡中的第二層池化層輸出的原始手語圖像序列時空特征輸入到第一個三維卷積殘差網絡的第三層卷積層中的第一個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第三層卷積層中的第一個卷積層中的權重;
上述第(2.1.1)步所述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第三層卷積層中的第k個卷積層輸出的原始手語圖像序列時空特征的表達為如下公式(6)所示,
公式(6)中,為將上述第一個三維卷積殘差網絡中的第三層卷積層中的第k-1個卷積層輸出的原始手語圖像序列時空特征輸入到第一個三維卷積殘差網絡的第三層卷積層中的第k個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第三層卷積層中的第k個卷積層中的權重;
上述第(2.1.1)步所述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第三層卷積層中的第三個卷積層輸出的原始手語圖像序列時空特征與上述的原始手語圖像序列時空特征相加,得到的新的該輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第三層卷積層中的第三個卷積層輸出的原始手語圖像序列時空特征的表達為如下公式(7)所示,
上述第(2.1.2)步所述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第三層卷積層中的第一個卷積層輸出的光流圖像序列時空特征的表達為如下公式(8)所示,
公式(8)中,為將上述的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第三層卷積層中第一個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第三層卷積層中的中第一個卷積層中的權重;
上述第(2.1.2)步所述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第三層卷積層中第k個卷積層輸出的光流圖像序列時空特征的表達為如下公式(9)所示,
公式(9)中,為將上述第二個三維卷積殘差網絡中的第三層卷積層中的第k-1個卷積層輸出的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第三層卷積層中的第k個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第三層卷積層中的第k個卷積層中的權重;
上述第(2.1.2)步所述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第三層卷積層中的第三個卷積層輸出的光流圖像序列時空特征與上述的光流圖像序列時空特征相加,得到的新的該輸入的光流圖像序列在第二個三維卷積殘差網絡中的第三層卷積層中第三個卷積層輸出的光流圖像序列時空特征的表達為如下公式(10)所示,
上述的光流圖像序列時空特征與上述的原始手語圖像序列時空特征進行多模態(tài)圖像序列時空特征融合,然后輸入到上述輸入的原始手語圖像序列所在的第一個三維卷積殘差網絡中的第三層池化層,表達為如下公式(11)所示,
公式(11)中,為上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第三層池化層輸出的融合后的多模態(tài)圖像序列特征,⊙為對應元素相乘;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層卷積層中的第一個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(12)所示,
公式(12)中,為將上述融合后的多模態(tài)圖像序列特征輸入到第一個三維卷積殘差網絡的第四層卷積層中的第一個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第四層卷積層中的第一個卷積層中的權重;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層卷積層中的第k個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(13)所示,
公式(13)中,為將上述第一個三維卷積殘差網絡中的第四層卷積層中的第k-1個卷積層輸出的融合后的多模態(tài)圖像序列特征輸入到第一個三維卷積殘差網絡的第四層卷積層中的第k個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第四層卷積層中的第k個卷積層中的權重;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層卷積層中的第三個卷積層輸出的融合后的多模態(tài)圖像序列特征與上述融合后的多模態(tài)圖像序列特征相加得到的新的輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層卷積層中第三個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(14)所示,
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第四層卷積層中的第一層卷積層輸出的光流圖像序列時空特征的表達為如下公式(15)所示,
公式(15)中,為將上述第二個三維卷積殘差網絡中的第三層池化層輸出的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第四層卷積層中第一個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第四層卷積層中的第一個卷積層中的權重;
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第四層卷積層中的第k個卷積層公式為輸出的光流圖像序列時空特征的表達為如下公式(16)所示,
公式(16)中,為將上述第二個三維卷積殘差網絡中的第四層卷積層中的第k-1個卷積層輸出的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第四層卷積層中的第k個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第四層卷積層中的第k個卷積層中的權重;
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第四層卷積層中的第三個卷積層輸出的光流圖像序列時空特征與上述光流圖像序列時空特征相加,得到的新的該輸入的光流圖像序列在第二個三維卷積殘差網絡中的第四層卷積層中的第三個卷積層輸出的光流圖像序列時空特征的表達為如下公式(17)所示,
將上述光流圖像序列時空特征與上述融合后的多模態(tài)圖像序列特征進行多模態(tài)圖像序列特征融合,并輸入到上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層池化層,表達為如下公式(18)所示,
公式(18)中,為上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第四層池化層輸出的融合后的多模態(tài)圖像序列特征;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層卷積層中的第一個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(19)所示,
公式(19)中,為將上述融合后的多模態(tài)圖像序列特征輸入到第一個三維卷積殘差網絡的第五層卷積層中的第一個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第五層卷積層中的第一個卷積層中的權重;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層卷積層中的第k個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(20)所示,
公式(20)中,為將上述第一個三維卷積殘差網絡中的第五層卷積層中的第k-1個卷積層輸出的融合后的多模態(tài)圖像序列特征輸入到第一個三維卷積殘差網絡的第五層卷積層中的第k個卷積層后的非線性映射的結果,為原始手語圖像在第一個三維卷積殘差網絡的第五層卷積層中的第k個卷積層中的權重;
上述輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層卷積層中的第三個卷積層輸出的融合后的多模態(tài)圖像序列特征與上述融合后的多模態(tài)圖像序列特征相加,得到的新的該輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層卷積層中的第三個卷積層輸出的融合后的多模態(tài)圖像序列特征的表達為如下公式(21)所示,
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第五層卷積層中的第一個層卷積層輸出的光流圖像序列時空特征的表達為如下公式(22)所示,
公式(22)中,為將上述第二個三維卷積殘差網絡中的第四層池化層輸出的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第五層卷積層中的第一個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第五層卷積層中的第一個卷積層中的權重;
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第五層卷積層中的第k個卷積層輸出的光流圖像序列時空特征的表達為如下公式(23)所示,
公式(23)中,為將上述第二個三維卷積殘差網絡中的第五層卷積層中的第k-1個卷積層輸出的光流圖像序列時空特征輸入到第二個三維卷積殘差網絡的第五層卷積層中的第k個卷積層后的非線性映射的結果,為光流圖像在第二個三維卷積殘差網絡的第五層卷積層中的第k個卷積層中的權重;
上述輸入的光流圖像序列在第二個三維卷積殘差網絡中的第五層卷積層中的第三個卷積層輸出的光流圖像序列時空特征與上述的光流圖像序列時空特征相加,得到的新的該輸入的光流圖像序列在第二個三維卷積殘差網絡中的第五層卷積層中的第三個卷積層輸出的光流圖像序列時空特征的表達為如下公式(24)所示,
上述光流圖像序列時空特征與上述融合后的多模態(tài)圖像序列特征進行多模態(tài)圖像序列特征的融合,并輸入到該輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層池化層,表達為如下公式(25)所示,
公式(25)中,為該輸入的原始手語圖像序列在第一個三維卷積殘差網絡中的第五層池化層輸出的融合后的多模態(tài)圖像序列特征,α為自適應參數值,初始化為0,并逐漸的學習分配到更大的權重,
將上述融合后的多模態(tài)圖像序列特征通過兩個全連接層,得到融合后的多模態(tài)圖像序列時空特征其中T=n/16,t=1,...,T,
由此完成多模態(tài)圖像序列時空特征融合;
至此完成原始手語圖像序列和光流圖像序列時空特征的提取和多模態(tài)圖像序列時空特征融合;
第三步,手語句子標簽的文本特征序列的提取:
對與上述第一步所述的原始手語圖像序列對應的有U個單詞的手語標簽Y=(y1,y2,...,yU),其中U為原始手語圖像序列所對應的單詞數量,通過使用詞嵌入方法進行手語句子標簽的文本特征序列提取,具體方法是,使用一個三維卷積殘差網絡完全連接層,從一個手勢單詞標簽的熱向量中學習線性映射到一個如下公式(26)所示的更密集的空間,即通過詞嵌入方法提取的手語句子標簽的文本特征序列u=1,...,U,
公式(26)中,為輸入與上述第一步所述的原始手語圖像序列時空特征對應的手語句子標簽,fwordembedding為用詞嵌入方法將輸入的手語句子標簽的文本序列進行文本特征表示;
第四步,基于自注意力機制的編碼解碼網絡的手語標簽預測輸出:
對于上述第二步獲取的融合后的多模態(tài)圖像序列時空特征和上述第三步獲取的文本特征序列采用基于自注意力機制的編碼解碼網絡的建模方法進行手語標簽預測輸出,該網絡由編碼器和解碼器兩部分構成,在編碼階段,上述第二步獲取的融合后的多模態(tài)圖像序列時空特征以一個大小為512維的向量通過雙向門控單元和基于自注意力機制的編碼網絡,編碼成視頻特征序列,然后在解碼階段,通過雙向門控單元、位置嵌入和基于自注意力機制的解碼網絡將上述第二步獲取的融合后的多模態(tài)圖像序列時空特征和上述第三步獲取的文本特征序列解碼生成預測手語標簽,具體操作如下:
第(4.1)步,在編碼階段獲得多模態(tài)圖像序列特征FFN(A):
將第二步獲取的融合后的多模態(tài)圖像序列時空特征輸入到上述編碼解碼網絡的編碼器,該編碼器對該融合后的多模態(tài)圖像序列時空特征的進行建模,過程如下,
編碼器的雙向門控單元分別從t=1到T和從t=T到1,其中T=n/16,所用編碼器的雙向門控單元為如下公式(27)和公式(28)所示,
公式(27)中,ot分別為門控單元模型fGRU-frw在編碼器的前饋神經網絡第t個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)、記憶單元和融合后的多模態(tài)圖像序列時空特征,分別為門控單元模型fGRU-frw在編碼器的前饋神經網絡第t-1個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)和記憶單元,
公式(28)中,ot分別為門控單元模型fGRU-bck在編碼器的反饋神經網絡第t個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)、記憶單元和融合后的多模態(tài)圖像序列時空特征,分別為門控單元模型fGRU-bck在編碼器的反饋神經網絡第t+1個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)和記憶單元,
將編碼器的前饋神經網絡的第t個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)和編碼器的反饋神經網絡的第t個16幀為一組的融合后的多模態(tài)圖像序列組的隱藏狀態(tài)的輸入級聯(lián)作為該編碼器的雙向門控單元的輸出zt,如下公式(29)所示,
公式(29)中,Concat為將第t個16幀為一組的融合后的多模態(tài)圖像序列組的編碼器的前饋神經網絡的隱藏狀態(tài)和反饋神經的網絡隱藏狀態(tài)進行級聯(lián),
由該編碼器的雙向門控單元的輸出zt得到新的多模態(tài)圖像序列特征進一步用如下公式(30)通過自注意力機制學習該新的多模態(tài)圖像序列特征的內部關系,
公式(30)中,dZ為新的多模態(tài)圖像序列特征的維度,softmax函數為將結果進行歸一化,
利用公式(30)對輸入的新的多模態(tài)圖像序列特征加入權重進行自注意力機制學習,得到輸出結果head,如下公式(31)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
公式(31)中,head為自注意力機制計算的結果,Attention為計算方式,與公式(30)相同,WQ、WK、WV分別為與Attention內新的多模態(tài)圖像序列特征對應的三個權重矩陣,
將輸入的新的多模態(tài)圖像序列特征進行6次自注意力機制學習,如下公式(32)所示,
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的計算方式與上述公式(31)相同,均為自注意力機制計算的結果,Concat為將6個自注意力機制計算的結果進行級聯(lián),MultiHead為級聯(lián)與權重矩陣WO相乘后的特征序列,
由上述公式(32)得到新的多模態(tài)圖像序列特征進行6次自注意力機制學習的結果為A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,將A=(a1,a2,...,aT)放入編碼器前向神經網絡FFN中,表達式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2為權重矩陣,b1和b2為偏置值,max為求0和AW1+b1的最大值,
由此完成在編碼階段獲得多模態(tài)圖像序列特征FFN(A);
第(4.2)步,在解碼階段獲得手語標簽預測輸出:
將上述第三步獲取的文本特征序列輸入到上述編碼解碼網絡的解碼器中,該解碼器對文本特征進行時間建模,過程如下,
所用解碼器的雙向門控單元為如下公式(34)和公式(35)所示,
公式(34)中su分別為門控單元模型fGRU-frw在解碼器的前饋神經網絡第u個單詞的隱藏狀態(tài)、記憶單元和文本特征序列,分別為門控單元模型fGRU-frw在前饋神經網絡第u-1個單詞的隱藏狀態(tài)和記憶單元,
公式(35)中,su分別為門控單元模型fGRU-bck在解碼器的反饋神經網絡第u個單詞的隱藏狀態(tài)、記憶單元和文本特征序列,分別為門控單元模型fGRU-bck在反饋神經網絡第u+1個單詞的隱藏狀態(tài)和記憶單元,
將解碼器的前饋神經網絡第u個單詞的隱藏狀態(tài)和解碼器的反饋神經網絡第u個單詞的隱藏狀態(tài)級聯(lián)作為該解碼器的雙向門控單元的第u個單詞的輸出qu,如下公式(36)所示,
公式(36)中,Concat為將第u個單詞的編碼器的前饋神經網絡的隱藏狀態(tài)和反饋神經的網絡隱藏狀態(tài)進行級聯(lián),
將該解碼器的雙向門控單元的輸出qu得到新的文本特征序列利用如下公式(37)和公式(38)分別所示的不同頻率的正弦函數和余弦函數進行位置編碼嵌入關于手語句子標簽中每個單詞的位置信息,得到位置編碼的位置序列結果為其中Pu為第u個單詞的位置編碼嵌入輸出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示為句子標簽中第u個單詞的位置,u=1,...,U,d為所有句子標簽中單詞的總個數,i=1,...,d,
將該解碼器的雙向門控單元的輸出得到新的文本特征序列和位置編碼嵌入得到的位置編碼嵌入輸出的結果相加,得到最終的手語句子標簽的文本特征序列如下公式(39)所示,
公式(39)中,為手語句子標簽的文本特征序列,qu為第u個單詞的門控單元輸出,Pu為第u個單詞的位置編碼嵌入輸出,
將得到的手語句子標簽的文本特征序列首先通過自注意力機制學習文本序列的內部關系,如下公式(40)所示,
公式(40)中,dG為手語句子標簽的文本特征序列的維度,softmax函數為將結果進行歸一化,
利用公式(40)對輸入的手語句子標簽的文本特征序列加入權重進行自注意力機制學習,得到輸出結果head',如下公式(41)所示,
head'=Attention(GW'Q,GW'K,GW'V) (41),
公式(41)中,Attention計算方式與公式(40)中相同,W'Q、W'K、W'V分別為與Attention內手語句子標簽的文本特征序列對應的三個權重矩陣,
將輸入的手語句子標簽的文本特征序列進行6次自注意力機制學習,如下公式(42)所示,
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'O (42),
公式(42)中,head'1、…、head'6的計算方式與上述公式(41)相同,均為自注意力機制計算的結果,Concat為將6個自注意力機制計算的結果進行級聯(lián),MultiHead為級聯(lián)與權重矩陣W'O相乘后的特征序列,
由上述公式(42)得到手語句子標簽的文本特征序列的結果表示為B=(b1,b2,...,bU),
將上述第(4.1)步中在編碼階段獲得的多模態(tài)圖像序列特征FFN(A)表示為D=(d1,d2,...,dT),其中T=n/16,
將B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均輸入到該解碼器的最后一個自注意力機制中,如下公式(43)所示,
公式(43)中,dB為手語句子標簽的文本特征序列的結果B的維度,softmax函數為將結果進行歸一化,
利用公式(43)對上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入權重進行自注意力機制學習,得到輸出結果為head″,如下公式(44)所示,
head″=Attention(BW″Q,DW″K,DW″V) (44),
公式(44)中,Attention計算方式與上述公式(43)中相同,W″Q為與Attention內的上述的B=(b1,b2,...,bU)所對應的權重矩陣,W″K、W″V分別為與Attention內的上述的D=(d1,d2,...,dT)所對應的兩個權重矩陣,
將上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)進行6次自注意力機制學習,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head″6)W″O (45),
公式(45)中,head″1、…、head″6的計算方式與上述公式(44)相同,均為自注意力機制計算的結果,Concat為將6個自注意力機制計算的結果進行級聯(lián),MultiHead為級聯(lián)與權重矩陣W″O相乘后的特征序列,
由上述公式(45)得到手語句子標簽的文本特征序列結果為E=(e1,e2,...,eU'),其中U'為預測的手語句子中單詞的總個數,將E=(e1,e2,...,eU')放入編碼器前向神經網絡FFN中,表達式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2為權重矩陣,b′1和b′2為偏置值,max為求0和EW′1+b′1的最大值,
通過編碼器前向神經網絡FFN和softmax層得到最終手語標簽預測輸出結果為Y'=(y′1,y′2,...,y′U),
由此完成在解碼階段獲得手語標簽預測輸出;
至此完成基于對多模態(tài)圖像序列特征融合和自注意力機制的編碼解碼網絡的連續(xù)手語識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業(yè)大學;天津理工大學,未經河北工業(yè)大學;天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010083258.8/1.html,轉載請聲明來源鉆瓜專利網。





