[發明專利]一種面向移動終端的超聲波唇讀識別裝置及方法有效
| 申請號: | 201610803559.7 | 申請日: | 2016-09-05 |
| 公開(公告)號: | CN106328141B | 公開(公告)日: | 2019-06-14 |
| 發明(設計)人: | 王曉亮;譚佳瑤;陸桑璐 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G10L15/24 | 分類號: | G10L15/24;H04B11/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 許丹丹 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 超聲波接收模塊 超聲波發送 移動終端 超聲波 唇讀 信號處理模塊 超聲波信號 識別裝置 應用場景 反射超聲波信號 口型 特征向量識別 超聲波技術 接收模塊 模塊發送 能力識別 匹配結果 特征向量 嘴部 反射 感知 拓展 | ||
1.一種面向移動終端的超聲波唇讀識別裝置,其特征在于,包括:超聲波發送模塊、超聲波接收模塊和信號處理模塊;超聲波發送模塊發送超聲波信號,超聲波信號在被嘴部反射后,由超聲波接收模塊接收,信號處理模塊處理超聲波接收模塊獲取的反射超聲波信號以得到該信號的特征向量,根據特征向量識別口型,得到匹配結果;信號處理模塊包括時間記錄單元、預處理單元、唇動分割單元、特征提取單元、唇語識別單元、模型訓練單元和口型基元庫;時間記錄單元記錄每次發射超聲波信號與接收超聲波信號的時間差,預處理單元對超聲波接收模塊獲取的反射超聲波信號進行濾波得到唇動反射信號,唇動分割單元將唇動反射信號以單音節為單位分割成若干個單音節信號序列,特征提取單元針對每個單音節信號序列提取并處理對應口型的特征參數形成唇動特征向量,口型基元庫應用特征提取單元提取的12種音節的特征參數,確立為12種基本口型,唇語識別單元調用口型基元庫匹配所有單音節信號序列分量的結果,模型訓練單元對分量匹配結果進行聯合學習。
2.如權利要求1所述的面向移動終端的超聲波唇讀識別裝置,其特征在于,超聲波發送模塊為移動終端的揚聲器,超聲波接收模塊為移動終端的麥克風,均支持19KHz的超聲波信號。
3.一種面向移動終端的超聲波唇讀識別方法,包括如下步驟:
(1)超聲波發送模塊發送19KHz的超聲波信號,同時信號處理模塊的時間記錄單元開始計時;
(2)超聲波接收模塊接收來自嘴部的超聲波反射信號,并將反射信號傳遞到信號處理模塊,同時信號處理模塊的時間記錄單元停止計時;
(3)信號處理模塊的預處理單元對超聲波接收模塊的反射超聲波信號進行濾波,從原始超聲波反射信號中分離出唇動引起的反射信號即唇動反射信號,傳遞唇動反射信號給唇動分割單元;
(4)唇動分割單元對唇動反射信號進行分割,以單音節為單位進行分割,得到的音節信號序列傳遞給特征提取單元;
(5)特征提取單元檢測每一個音節信號序列分量對應的特征參數,形成唇動特征向量;特征提取單元處理所有音節信號序列分量后,將每個分量的唇動特征向量傳遞給唇語識別單元;
(6)唇語識別單元對當前唇動特征向量進行識別,調用口型基元庫,與口型基元庫中的單口型唇動特征向量樣本相匹配,根據口型基元庫中單口型與音節的對應關系、單口型與特性向量對應關系,對當前唇動特征向量進行分類匹配,將所有分量匹配結果傳遞給模型訓練單元進一步識別;
(7)模型訓練單元基于馬爾科夫假設,應用概率統計模型對分量匹配結果進行聯合學習,結合語法規則集和基于上下文的糾錯,統計具有最大概率的句子序列集,并輸出為最終唇讀結果。
4.如權利要求3所述的面向移動終端的超聲波唇讀識別方法,其特征在于,步驟(4)中,唇動分割單元對唇動信號進行分割包括詞內分割和詞間分割;對唇動信號進行詞間分割時,通過檢測單詞間存在的較為明顯的停頓,設置一個長為Tms的滑動窗口,每次向前滑動kms個單位,滿足2k≤T,當檢測到連續兩次滑動窗口內不存在信號時,判斷當前為停頓,為詞間分割點;對唇動信號進行詞內分割時,計算信號中19KHz的主頻峰的個數n,根據個數對信號進行n均等詞內分割。
5.如權利要求3所述的面向移動終端的超聲波唇讀識別方法,其特征在于,步驟(5)中的特征參數包括持續時間和頻移;時間記錄單元記錄的發射超聲波和接收超聲波的時間差作為持續時間。
6.如權利要求3所述的面向移動終端的超聲波唇讀識別方法,其特征在于,步驟(5)中的特征參數提取步驟如下:
(1)采用快速傅里葉變換FFT計算主要頻峰E和周圍頻帶范圍內的所有峰值點,主要頻峰E為19KHz處的峰值,將小于19KHz的頻段內的峰值存放入峰前數組F,大于19KHz頻段內的峰值點存放在峰后數組A中;
(2)設置主要頻峰和次要頻峰的閾值比例k,掃描得到的頻峰值數組A、F,若存在高于k·E的頻峰值,則說明存在次要頻峰,次要頻峰即唇動引入的第二大頻峰值;
(3)當確定了次要頻峰位置后,對主要、次要頻峰作差,得到唇動對應的頻移Δf。
7.如權利要求3所述的面向移動終端的超聲波唇讀識別方法,其特征在于,步驟(7)中的模型訓練單元應用概率統計模型統計最大概率的句子序列集,具體步驟如下:
(1)初始化概率統計模型的參數:口型狀態O:定義為包括口型基元庫中12種基本口型;音節狀態S,即輸出識別結果,定義為12種口型對應的所有元音輔音音節;轉移概率P(Oi→Oj):從口型狀態Oi轉移到口型狀態Oj的概率;傳輸概率P(Si|Ok,Sj):當后一個音節狀態為Sj,當前口型狀態為Ok情況下,輸出音節狀態為Si的概率;
(2)組合所有分量匹配結果時,第i個分量識別為音節狀態Si的概率與前一個口型狀態Oi-1、當前口型狀態Oi、后一個分量識別的音節狀態Si+1有關;具有最大概率的音節狀態即作為當前分量的識別結果;即
P(Si)=P(Oi-1→Oi)·P(Si|Oi,Si+1)
(3)以此類推,計算到最后一個分量的識別結果,求解出對應的具有最大概率的序列S1S2...Si...Sn-1Sn。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610803559.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:深度信息獲取方法及裝置
- 下一篇:一種多功能環保嬰幼兒用濕巾及其制備方法





