[發明專利]一種語音識別方法、裝置、系統以及語言交換系統有效

申請號：	201510081322.8	申請日：	2015-02-15
公開（公告）號：	CN104637482A	公開（公告）日：	2015-05-20
發明（設計）人：	孔繁澤	申請（專利權）人：	孔繁澤
主分類號：	G10L15/26	分類號：	G10L15/26
代理公司：	北京市合德專利事務所 11244	代理人：	王文會;劉榜美
地址：	100080 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法裝置系統以及語言交換
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音識別技術，特別是涉及用于語音識別的方法、裝置、系統以及實現從一種語言到另一種語言的語言交換的系統。

背景技術

語音識別的研究始于20世紀50年代，1952年的Audry系統是第一個可以識別10個英文數字的語音識別系統。1959年，采用數字計算機識別英文元音和孤立詞，從此開始了計算機語音識別，60年代，語音結束點的端點檢測以及動態編程，使語音識別水平明顯上升，?70年代在提出信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術，有效地解決了語音信號的特征提取和不等長語音匹配問題的同時，矢量量化(VQ)和隱馬爾可夫模型(HMM)理論也進入實驗應用領域，80年代?HMM模型和人工神經網絡(ANN)在語音識別中成功應用，通過VQ/I-IMM方法實現了高性能的非特定人、大詞匯量、連續語音識別系統。進入90年代后，語音識別技術進一步成熟，IBM開發的?ViaVoice和Microsoft開發的中文識別引擎都具有了相當高的漢語語音識別水平。進入21世紀，嵌入式語音處理技術發展迅速。基于語音識別芯片的嵌入式硬件產品，如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等，得到廣泛應用。IBM的Viavoice和Microsoft的SAPI以及開源架構HTK，都是面向非特定人、大詞匯量的連續語音識別系統。

目前各商業機構利用上述科學成果的實踐過程中，語音信號識別準確率是關鍵指標。目前主流的語音識別技術是基于統計模式識別，一個完整的語音識別大致分為以下三個步驟：

（1）語音特征提取：其目的是從語音波形中提取出隨時間變化的語音特征序列；

（2）聲學模型與模式匹配（識別算法）：聲學模型通常將獲取的語音特征通過學習算法產生。在識別時將輸入的語音特征同聲學模型（模式）進行匹配與比較，得到最佳的識別結果；

（3）語言模型與語言處理：語言模型包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型，語言處理可以進行語法、語義分析。

這其中聲學模型是識別系統的底層模型，并且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小（字發音模型、半音節模型或音素模型）對語音訓練數據量大小、系統識別率，以及靈活性有較大的影響。必須根據不同語言的特點、識別系統詞匯量的大小決定識別單元的大小。隨著識別精度的提高需要呈幾何級數增長的系統詞匯量，系統詞匯的編碼長度往往要達到18至22位長度，這就必然導致語音、語義識別的反應速度受限于計算機處理能力，也會使得采用不同語音、語言特征建立的識別系統間無法交流和交換。基于現有聲學模型會使得識別系統對硬件要求極高，識別準確率受底層模型影響與響應時間和制造成本呈正相關。

發明內容

本發明的目的是提供一種語音識別裝置，解決現有聲學模型下，語音識別效率和準確性無法進步的技術問題。

本發明提供了一種語音識別裝置，包括：

音素存儲單元（001），用于存儲第一語言音素特征數據；

音素轉換單元（002），用于將接收的音素信號序列通過第一語言音素特征數據轉換為第一語言音素；

數字編碼單元（003），用于為第一語言音素進行唯一編碼，形成第一語言音素編碼序列；利用第一語言音素編碼序列形成第一語言的字發音編碼序列和詞匯發音編碼序列；

字詞存儲單元（004），用于存儲第一語言的字、詞匯或圖形及所對應的編碼序列；

字詞轉換單元（005），用于根據編碼序列的對應關系生成第一語言的字、詞匯、圖形和/或其組合。

本發明還提供了一種語音識別系統，包括上述的語音識別裝置，還包括音頻輸入裝置（103）和語義分析裝置（104），其中：

音頻輸入裝置（103），用于采集人聲頻率范圍中的聲源，識別人聲中的音素信號序列；

所述語音識別裝置（101），用于將音素信號序列通過第一語言音素特征數據轉換為第一語言音素，通過相應編碼序列轉換為第一語言的字、詞匯、圖形和/或其組合；

語義分析裝置（104），用于接收第一語言的字、詞匯、圖形和/或其組合，進行語義判斷，過濾其中的備選數據，形成與聲源附帶信息一致的文字形式或圖形形式。