[發(fā)明專利]一種手語識別方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010301154.X | 申請日: | 2020-04-16 |
| 公開(公告)號: | CN111340005A | 公開(公告)日: | 2020-06-26 |
| 發(fā)明(設計)人: | 馮偉;高麗清;劉國重;廖啟波 | 申請(專利權)人: | 深圳市康鴻泰科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市智勝聯合知識產權代理有限公司 44368 | 代理人: | 齊文劍 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 手語 識別 方法 系統(tǒng) | ||
1.一種手語識別方法,其特征在于,包括:
采集目標區(qū)域內的手語視頻,將所述手語視頻轉化成第一視頻幀;
通過預設卷積神經網絡提取所述第一視頻幀中的特征幀;
將所述特征幀輸入到預設分層長短期記憶網絡,提取出有效幀;
將所述有效幀輸入到預設手語識別模型,輸出與所述手語視頻對齊的目標語句文本。
2.根據權利要求1所述的方法,其特征在于,所述采集目標區(qū)域內的手語視頻,將所述手語視頻轉化成第一視頻幀之后,包括:
按照預設目標對象裁切規(guī)則將所述第一視頻幀裁切為第二視頻幀。
3.根據權利要求2所述的方法,其特征在于,所述通過預設卷積神經網絡提取所述第一視頻幀中的特征幀包括:
采用預設殘差網絡對所述第二視頻幀逐幀提取,得到所述特征幀。
4.根據權利要求1所述的方法,其特征在于,所述預設分層長短期記憶網絡設置為三層長短期記憶網絡,所述將所述特征幀輸入到預設分層長短期記憶網絡,提取出有效幀包括:
將所述特征幀輸入到第一層長短期記憶網絡,建立所述特征幀的時序關系,得到第一時序幀;
將所述第一時序幀輸入到第二層長短期記憶網絡,提取出第一預設滑動窗口中的關鍵幀;
將所述關鍵幀輸入到第三層長短期記憶網絡,提取出第二預設滑動窗口中的所述有效幀。
5.根據權利要求1所述的方法,其特征在于,所述將所述有效幀輸入到預設手語識別模型,輸出與所述手語視頻對齊的目標語句文本包括:
將所述有效幀輸入到基于編碼器-解碼器結構和基于CTC損失函數的循環(huán)神經網絡聯合訓練的模型,輸出與所述手語視頻對齊的目標語句文本。
6.根據權利要求5所述的方法,其特征在于,所述將所述有效幀輸入到基于編碼器-解碼器結構和基于CTC損失函數的循環(huán)神經網絡聯合訓練的手語識別模型,輸出與所述手語視頻對齊的目標語句文本的之前,還包括:
將所述有效幀分別輸入到編碼器-解碼器結構和CTC損失函數中,得到對應的兩個損失函數值,將所述兩個對應的損失函數值通過線性加權,得到總損失函數值;
利用所述總損失函數值訓練所述手語識別模型。
7.根據權利要求6所述的方法,其特征在于,所述利用所述總損失函數值訓練所述手語識別模型包括:
利用所述總損失函數值和梯度下降算法更新所述手語識別模型中的參數。
8.一種手語識別系統(tǒng),其特征在于,包括:
視頻采集模塊,用于采集目標區(qū)域內的手語視頻,采集目標區(qū)域內的手語視頻,將所述手語視頻轉化成第一視頻幀;
特征提取模塊,用于通過預設卷積神經網絡提取所述手語視頻中的特征幀;
特征篩選模塊,用于將所述特征幀輸入到預設分層長短期記憶網絡,提取出有效幀;
手語識別模塊,用于將所述有效幀輸入到預設手語識別模型,輸出與所述手語視頻對齊的目標語句文本。
9.電子設備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現如權利要求1至7中任一項所述的手語識別方法的步驟。
10.計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現如權利要求1至7中任一項所述的手語識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市康鴻泰科技有限公司,未經深圳市康鴻泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010301154.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:安全電纜橋架
- 下一篇:一種汽車整車快速爆胎試驗用設備





