[發明專利]一種基于聲波感知的文本輸入方法有效
| 申請號: | 201811039200.2 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109192198B | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 尹煥樸;周安福;劉亮;馬華東 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/26;G06F3/16 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲波 感知 文本 輸入 方法 | ||
1.一種基于聲波感知的文本輸入方法,其特征在于,應用于移動終端,所述方法包括:
獲取待輸入文本對應的音頻信息,其中,所述音頻信息為:用戶在所述移動終端的顯示屏以外的對象上,書寫所述待輸入文本時所產生的聲音數據;
對所述音頻信息進行分割,得到所述待輸入文本中每個待識別字母的音頻片段;
將所述待輸入文本的類型、所述每個待識別字母的音頻片段和所述每個待識別字母的音頻片段在所述音頻信息中的排列順序發送給服務器,以使得所述服務器基于所述待輸入文本的類型、所述每個待識別字母的音頻片段和所述每個待識別字母的音頻片段在所述音頻信息中的排列順序,確定所述待輸入文本的輸入結果;
接收所述服務器反饋的所述輸入結果,并基于所述輸入結果,在所述移動終端的顯示屏中顯示所述待輸入文本對應的文本信息;
其中,所述對所述音頻信息進行分割,得到所述待輸入文本中每個待識別字母的音頻片段的步驟,包括:
將所述音頻信息劃分為多個音頻幀,并分別為每個音頻幀添加幀號,其中,時間在前的音頻幀的幀號小于時間在后的音頻幀的幀號;
按照由小到大的幀號順序,依次確定各個音頻幀的類別;其中,任一音頻幀的類別為:第一類別、第二類別或第三類別,其中,所述第一類別為:所述音頻信息中的語音段的起始幀,所述第二類別為:所述音頻信息中的語音段的結束幀,所述第三類別為:靜音幀、或處于語音段的起始幀與語音段的結束幀之間的語音幀,或過渡幀;所述語音段為:所述音頻信息中書寫待識別單詞的音頻段;所述靜音幀為:處于靜音段的音頻幀,所述靜音段為:所述音頻信息的起始時刻開始的預設時間內中沒有進行書寫、只存在環境背景噪音的音頻段,所述過渡幀為:所述音頻信息中由所述靜音段向語音段轉變的音頻幀;
基于所確定的類別為所述第一類別和所述第二類別的音頻幀的幀號,將所述音頻信息劃分為多個語音段,并基于所述多個語音段確定所述待輸入文本中每個待識別字母的音頻片段。
2.根據權利要求1所述的方法,其特征在于,所述按照由小到大的幀號順序,依次確定各個音頻幀的類別的步驟,包括:
按照由小到大的幀號順序,依次對各個音頻幀執行類別分析處理,得到各個音頻幀的類別;
其中,當一音頻幀的屬性為靜音幀或過渡幀時,對該音頻幀執行類別分析處理,包括:
S201:判斷該音頻幀的短時能量是否大于預設的第一閾值,如果是,執行S202,否則,執行S203;其中,所述多個音頻幀中的第一個音頻幀的屬性為靜音幀,所述多個音頻幀中的除第一個音頻幀以外的音頻幀的屬性基于上一音頻幀所確定;
S202:確定該音頻幀的類別為所述第一類別,并記錄該音頻幀的幀號,確定預設的第一數值為零,預設的第二數值加1,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為語音幀;其中,所述語音幀為:位于所述語音段中的音頻幀;
S203:判斷該音頻幀的短時能量是否大于預設的第二閾值,如果是,執行S204,否則,執行S205,其中,所述第二閾值小于所述第一閾值;
S204:確定該音頻幀的類別為第三類別,確定所述第一數值不變,所述第二數值為零,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為過渡幀;
S205:確定該音頻幀的類別為所述第三類別,確定所述第一數值和所述第二數值為零,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為靜音幀;
當一音頻幀的屬性為語音幀時,對該音頻幀執行類別分析處理,包括:
S206:判斷該音頻幀的短時能量是否大于所述第二閾值,如果是,執行S207,否則,執行S208;
S207:確定該音頻幀的類別為所述第三類別,確定所述第一數值為零,所述第二數值加1,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為語音幀;
S208:所述第一數值加1,并判斷加1后得到的所述第一數值是否小于預設的第三閾值,如果是,執行S209,否則,執行S210;
S209:確定該音頻幀的類別為所述第三類別,確定所述第一數值不變,所述第二數值加1,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為語音幀;
S210:判斷所述第二數值是否小于預設的第四閾值,如果是,執行S211,否則,執行S212;
S211:確定該音頻幀的類別為所述第三類別,確定所述第一數值和所述第二數值為零,并刪除所記錄的類別為所述第一類別的音頻幀的幀號中最后一次記錄的幀號,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為靜音幀;
S212:確定該音頻幀的類別為所述第二類別,并記錄該音頻幀的幀號,確定所述第一數值和所述第二數值為零,當該音頻幀不是最后一個音頻幀時,確定該音頻幀的下一個音頻幀的屬性為靜音幀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811039200.2/1.html,轉載請聲明來源鉆瓜專利網。





