[發明專利]基于編解碼器的手語翻譯系統在審
| 申請號: | 202210226325.6 | 申請日: | 2022-03-09 |
| 公開(公告)號: | CN114758411A | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 李天軍;劉明強;薛萬利;陳勝勇 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/82;G06F40/58;G06F40/51;G06F40/274;G06N3/04;G06N3/08;G09B21/00 |
| 代理公司: | 北京市中聞律師事務所 11388 | 代理人: | 雷電 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 編解碼器 手語 翻譯 系統 | ||
本發明要解決的技術問題是提升手語視頻翻譯的效果,發明的內容是提供一個基于編解碼器的手語翻譯系統。該系統包括:特征提取模塊,以獲得手語視頻的特征表示;翻譯模塊,以建立手語和自然語言之間的翻譯模型。本發明同時利用手語詞序列和自然語言序列的標注,從兩個方面來提升手語視頻翻譯的性能。一方面,為獲取更好的特征,通過采用卷積神經網絡和循環神經網絡相結合的結構來充分利用幀自身和幀間的信息;在CTC損失的基礎上添加全局特征和局部特征之間的KL散度損失,使得在視頻和標注手語詞序列的對齊時更充分地利用手語視頻本身。另一方面,為改善翻譯效果,將多種翻譯技術運用到解碼階段。本發明在翻譯指標上取得了一定的改進。
技術領域
本專利涉及圖像處理和計算機視覺領域以及神經語言翻譯技術領域,特別地,涉及手語視頻翻譯領域。
背景技術
為了解決聾人和聽人之交流的障礙,手語識別和翻譯技術應運而生。手語翻譯是將聾人打的手語視頻轉譯成聽人日常用到的自然語言。然而,現階段的方法在將手語視頻轉化成文本時的準確率不太理想。手語翻譯技術面臨的難題有兩個方面。
一、手語視頻的表征。為緩解視頻的冗余,需進行視頻特征提取。由于實際場景中一個詞往往占了幾十上百個十分相似的幀,并且大多時候一幀中實際有意義的區域只有手和面部,手語視頻包含很多冗余的信息。如果不加處理得全部利用所有幀的所有像素作為特征的話,除了浪費硬件資源之外,神經網絡的訓練和預測的速度也比較慢,同時翻譯的效果會因為網絡的參數過多訓練難度大而不佳。當前的方案是采用二維卷積神經網絡來提取圖像的特征,但是這樣的網絡孤立地提取每一幀的特征,缺乏視頻幀間的時序特征,會造成性能瓶頸。此外,手語視頻和手語詞序列序列的對應不是簡單的一一對應,而是一對多的對應關系,而標注對與每一幀所對應的詞缺乏精確的描述,而在識別手語時則需要將不同含義的幀區分開,對應到相應的手語詞上,這也是當前的一個難點。主要的解決方案是用語音識別領域常用的CTC(Connectionist Temporal Classification,連接時序分類)來尋找最佳的對應路徑。這個方法的性能瓶頸在于并沒有充分的利用手語本身的特點,還有改進的空間。
二、神經語言翻譯。手語視頻幀和自然語言在表達時的語序并不一致,并不存在一個簡單的對應,因而神經網絡很難學到二者的對應關系,這是手語翻譯的一大難題。當前解決方案主要是將手語詞序列作為手語視頻和自然語言之間的中間表示。手語視頻和手語詞序列有著更簡單的對應,可以先學習手語視頻與手語詞序列對應,然后將神經語言翻譯用來學習兩種手語和自然語言之間的對應關系。手語有它特有的語法,可以看成一種語言,它和自然語言之間的轉換適用于神經語言翻譯的范式。手語詞序列和手語視頻幀的順序對應。但是,手語相對自然語言較為簡陋,在視頻翻譯過程中,僅僅像神經語言翻譯那樣學習手語詞序列和自然語言序列的對應關系,則必定會丟失很多細節,導致翻譯的精準度不高。
發明內容
針對現有技術制約手語翻譯性能的兩個方面,本發明提出一個基于編解碼器的手語翻譯系統,力求解決的技術問題是提升手語視頻翻譯的效果。
為實現上述目的,本發明提出一個基于編解碼器的手語翻譯系統,主要由以下兩個功能模塊構成:特征提取模塊,用于提取手語視頻的特征,其輸入是手語視頻,輸出是特征,所述特征能夠解碼成手語詞序列;翻譯模塊,用于建立手語和自然語言之間的翻譯模型,其輸入是手語詞序列,輸出是概率向量序列,概率向量序列能夠解碼成自然語言詞序列。手語翻譯系統的數據來源于數據集,所述數據集是多組數據構成的集合,其每一組數據的組成是手語視頻、標注手語詞序列和標注自然語言詞序列。
根據本發明的一個方面,特征提取模塊的構成包括:二維卷積神經網絡,用于獲得所述手語視頻的視頻幀序列各幀的特征,所述視頻幀序列經過二維卷積神經網絡之后,依次經過一維卷積神經網絡和雙向循環神經網絡;所述一維卷積神經網絡,其輸出用于獲得視頻的局部特征;所述雙向循環神經網絡,其輸出用于獲得視頻的全局特征;投影層,用于將所述一維卷積神經網絡和雙向循環神經網絡的輸出投影到手語詞空間,獲得局部特征和全局特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210226325.6/2.html,轉載請聲明來源鉆瓜專利網。





