[發明專利]手語識別方法及裝置有效
| 申請號: | 201910456373.2 | 申請日: | 2019-05-29 |
| 公開(公告)號: | CN110163181B | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 李厚強;周文罡;蒲俊福 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉;王寶筠 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手語 識別 方法 裝置 | ||
本發明提供了一種手語識別方法,包括:對各個子視頻進行特征提取得到與每個子視頻對應的特征數據;對各個特征數據進行編碼得到與每個子視頻對應的時序特征數據;應用預先設置的CTC解碼器,按各個時序特征數據的時序,依次對各個時序特征數據進行解碼,得到第一輸出結果;在第一輸出結果中,按各個第一概率值由大至小的順序選取預設數目的自然語言數據以組成待識別結果集合;應用預先設置的LSTM解碼器確定所述待識別結果集合中的各個所述自然語言數據對應的第二概率值;依據第一概率值及第二概率值,在待識別結果集合中選定目標自然語言數據。通過CTC解碼器及LSTM解碼器共同解碼,能有效的提升手語識別的精度。
技術領域
本發明涉及數據處理領域,特別涉及一種手語識別方法及裝置。
背景技術
隨著信息技術的發展,基于機器學習的連續手語識別技術也得到了極大的發展。手語是聾啞人士獲取信息及表達信息的一種重要方式,聾啞人士通常通過手語來與他人進行溝通,這需要交流的雙方都要懂得手語,而正常人學習手語需耗費大量的時間和精力,故而大部分正常人的手語水平較低,難以與聾啞人士進行交流。因此,連續手語識別技術對聾啞人的溝通具有重大意義。
然而,現有的基于機器學習的連續手語識別技術中,往往對包含手語的視頻的識別準確率低,因此,如何提高手語視頻的識別準確率成為本領域技術人員迫切解決的問題。
發明內容
本發明所要解決的技術問題是提供一種手語識別方法,能夠能基于連接時序分類(Connectionist Temporal Classification,CTC)解碼器及長短時記憶(Long Short TermMemory,LSTM)解碼器共同對待識別手語視頻進行識別,有效的提升手語識別的準確率。
本發明還提供了一種手語識別裝置,用以保證上述方法在實際中的實現及應用。
一種手語識別方法,包括:
將已獲取的待識別手語視頻劃分為多個子視頻;
對各個所述子視頻進行特征提取,得到與每個所述子視頻對應的特征數據;
對各個所述特征數據進行編碼,以生成與每個所述子視頻對應的時序特征數據;
應用預先設置的連接時序分類CTC解碼器,按各個所述時序特征數據的時序,依次對各個所述時序特征數據進行解碼,得到第一輸出結果;所述第一輸出結果包含與所述待識別視頻對應的各個自然語言數據的第一概率值;
在所述第一輸出結果中,按各個所述第一概率值由大至小的順序,選取預設數目的自然語言數據,以組成待識別結果集合;
應用預先設置的LSTM解碼器確定所述待識別結果集合中的各個所述自然語言數據分別對應的第二概率值;
依據各個所述第一概率值及各個所述第二概率值,在所述待識別結果集合中選定目標自然語言數據,并將所述目標自然語言數據確定為與所述待識別手語視頻對應的識別結果。
上述的方法,可選的,所述將已獲取的待識別手語視頻劃分為多個子視頻,包括:
調用預先設置的滑動窗,按預設的步長,從所述待識別手語視頻的起始端依次提取與所述滑動窗的窗長匹配的子視頻;
其中,所述窗長大于所述步長。
上述的方法,可選的,應用預先設置的CTC解碼器,按各個所述時序特征數據的時序,依次對各個所述時序特征數據進行解碼,得到第一輸出結果,包括:
將每個所述時序特征數據分別與預設的各個自然語言單詞進行匹配,得到每個所述時序特征數據分別與各個所述自然語言單詞對應的自然語言概率分布;
基于所述概率分布確定與待識別視頻對應的各個自然語言數據的第一概率值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910456373.2/2.html,轉載請聲明來源鉆瓜專利網。





