[發明專利]一種基于多源信息融合的手語識別方法在審
| 申請號: | 201811012934.1 | 申請日: | 2018-08-31 |
| 公開(公告)號: | CN109271901A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 王志波;趙騰達;陳鴻愷;馬金鑫;王騫 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G09B21/00 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手語 多源信息融合 手語識別 多傳感器融合技術 揚聲器 電信號傳感器 慣性測量單元 神經網絡模型 輸入神經網絡 數據預處理 動作數據 動作信息 藍牙傳輸 模型移植 切割動作 去噪算法 神經網絡 實時識別 數據格式 數據清洗 數據收集 特征提取 語言庫 構建 肌肉 標簽 語音 保存 學習 | ||
1.一種基于多源信息融合的手語識別方法,其特征在于包含以下步驟:
步驟1,通過8軸表面肌肉電信號傳感器sEMG和9軸慣性測量單元IMU來收集手語動作的原始信號,并通過藍牙傳輸數據;
步驟2,通過數據預處理算法對原始信號進行去噪和特征提取,并處理成神經網絡的輸入數據格式;
步驟3,構建雙向雙層LSTM神經網絡,并訓練保存模型;
步驟4,將模型移植到手機上,實時切割sEMG數據和IMU數據,用開源語言庫,將動作翻譯成相應聲音。
2.如權利要求1所述的一種基于多源信息融合的手語識別方法,其特征是,
步驟1收集雙手的sEMG信號數據和IMU數據,共計42維數據。
3.如權利要求1所述的一種基于多源信息融合的手語識別方法,其特征是,所述步驟2中,使用EMG信號強度有助于在多傳感器系統中實現數據分割,包括:
步驟2.1、基于多通道EMG信號用于確定活動段的起始點和終點,將8通道sEMG信號做算術平均,之后再做db12小波變換降噪,具體基于以下公式:
其中c為信道的索引,Nc為通道數;
其中a為尺度,τ為平移量,尺度對應于頻率,平移量τ對應于時間;
步驟2.2、后設置閾值進行切割,使用兩個閾值檢測活動段,起始和偏移閾值;并且偏移閾值低于起始閾值;當EMG(t)高于起始閾值時,活動段開始,直到規定時間段內的所有樣本都低于偏移閾值。
4.如權利要求1所述的一種基于多源信息融合的手語識別方法,其特征是,所述步驟3中,建議以RNN為模型實現手勢塊的識別,循環神經網絡模型包括
Input Layer層:將已經預處理好的數據轉換成符合神經網絡的輸入格式,為512*24的一張圖,并輸入神經網絡;
Layer1層:雙向RNN,神經網絡單元為LSTM
Layer2層:雙向RNN,神經網絡單元為LSTM;
Output Layer層:為單詞lable的輸出。
5.如權利要求1所述的一種基于多源信息融合的手語識別方法,其特征是,所述步驟3中,進行訓練保存模型的具體方法是:構建雙向雙層LSTM神經網絡,將經過數據預處理的數據傳進搭建好的神經網絡結構,經訓練結束后保存CKPT模型到本地,備后續使用。
6.如權利要求1所述的一種基于多源信息融合的手語識別方法,其特征是,步驟4所述的實時識別方法包括:
步驟4.1、實時地獲取傳感器數據,將8通道sEMG信號做算術平均,之后再做實時的db12小波變換降噪;
步驟4.2、設置閾值進行活動識別,使用兩個閾值檢測活動段,起始和偏移閾值;通常,偏移閾值低于起始閾值;當EMG(t)高于起始閾值時,活動段開始,直到規定時間段內的所有樣本都低于偏移閾值;用SEMG數據的取值結果同步的取出相應的IMU數據,送入手機中存儲的訓練好的網絡,用以輸出對應的label的詞語;
步驟4.3、根據詞語的序號傳入構建好的有限狀態自動機內,更新自動機狀態,最后將其組成為一個完整可行的句子,并調用開源語音庫將其翻譯成聲音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811012934.1/1.html,轉載請聲明來源鉆瓜專利網。





