[發明專利]語音識別的方法及系統有效

申請號：	201510562502.8	申請日：	2015-09-07
公開（公告）號：	CN105118501B	公開（公告）日：	2019-05-21
發明（設計）人：	徐洋;胡方超;陳鵬;張玲;董雪;李源源	申請（專利權）人：	徐洋
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L15/28
代理公司：	上海光華專利事務所(普通合伙) 31219	代理人：	尹麗云
地址：	400065 重慶***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明適用于語音識別技術，涉及一種語音識別的方法及系統，所述方法包括：獲取語音信號；將所述語音信號進行模數轉換，生成相應的語音數字信號；對所述語音數字信號進行預處理，根據預處理后相應的結果提取語音特征參數，以提取所述語音特征參數的時間順序構建相應的特征序列；將所述語音特征參數與模板庫中語音模型進行匹配，根據搜索算法對所述特征序列進行解碼，以生成相應的識別結果。本發明通過提取時域GFCC特征替代頻域上的MFCC特征，以及采用DCT變換，減少了計算量，同時，提高了計算速度和增加了魯棒性；通過采用加權有限狀態轉換的機理構建解碼模型，增加了模型的平滑和壓縮處理，從而提高了解碼速度。

技術領域

本發明屬于語音識別技術領域，特別是涉及一種嵌入式語音識別的方法及系統。

背景技術

語音識別是通過用機器識別用戶聲音命令來實現人機交互的關鍵技術，其可以顯著改進人機交互的方式以使得用戶可以在說出命令的同時完成更多任務。語音識別是通過在線或離線訓練得到的語音識別引擎來實現的。語音識別過程通常可以分為訓練階段和識別階段。在訓練階段中，根據語音識別引擎所基于的數學模型，從訓練數據中統計地得到聲學模型(acoustic model，AM)和詞匯表(lexicon)。在識別階段中，語音識別引擎使用聲學模型和詞匯表對輸入的語音進行處理，得到語音識別結果。例如，從輸入聲音的聲波圖進行特征提取以獲得特征向量，然后根據聲學模型得到音素(如[i]，[o]等)序列，最后從詞匯表中定位與音素序列匹配度較高的單詞，甚至是句子。

然而，現有的語音識別技術在識別過程中，由于語音識別系統的適應性差，且對環境依賴性強，要求測試條件和訓練條件必須保持一直，否則系統性能會會大大下降；或者，高噪聲環境下識別困難，特別是車載條件下，人的發音變化大，像發音失真、發音速度和音調的改變因，導致語音識別的效率低下；或者，端點檢測不確定性，即使在安靜環境下，語音識別系統一般以上的識別錯誤來自錯誤的端點檢測，造成轉化存在大量的問題。

發明內容

鑒于以上所述現有技術的缺點，本發明的目的在于提供一種語音識別的方法及系統，用于解決現有語音識別的方法適應性差、對環境依賴性強和端點檢測不確定性，導致解碼效率低的問題。

為實現上述目的及其他相關目的，本發明提供一種語音識別的方法，包括：

獲取語音信號；

將所述語音信號進行模數轉換，生成相應的語音數字信號；

對所述語音數字信號進行預處理，根據預處理后相應的結果提取語音特征參數，以提取所述語音特征參數的時間順序構建相應的特征序列；

將所述語音特征參數與模板庫中語音模型進行匹配，根據搜索算法對所述特征序列進行解碼，以生成相應的識別結果。

發明的另一目的還在于提供一種語音識別的系統，所述系統包括：

獲取單元，適用于獲取語音信號；

轉換單元，適用于將所述語音信號進行模數轉換，生成相應的語音數字信號；

處理單元，適用于對所述語音數字信號進行預處理，根據預處理后相應的結果提取語音特征參數，以提取所述語音特征參數的時間順序構建相應的特征序列；

識別單元，適用于將所述語音特征參數與模板庫中語音模型進行匹配，根據搜索算法對所述特征序列進行解碼，以生成相應的識別結果。