[發明專利]語音識別方法及系統有效

申請號：	201110387826.4	申請日：	2011-11-29
公開（公告）號：	CN102376305A	公開（公告）日：	2012-03-14
發明（設計）人：	潘青華;王智國;何婷婷;劉聰;胡國平;胡郁;劉慶峰	申請（專利權）人：	安徽科大訊飛信息科技股份有限公司
主分類號：	G10L15/00	分類號：	G10L15/00;G10L19/00
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	趙景平;逯長明
地址：	230088 安徽***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及智能信息處理技術領域，更具體地說，涉及一種語音識別方法及系統。

背景技術

實現人機之間人性化、智能化的有效交互，構建高效自然的人機交流環境，已經成為當前信息技術應用和發展的迫切需求。作為最自然高效的交互手段，在線語音識別諸如發微博、寫短信等應用在小屏幕移動設備上受到了越來越多的關注。在在線應用中，用戶對系統響應速度有更高要求，會希望在語音輸入結束后沒有明顯時延即得到識別結果。語音識別系統的實時性已經成為衡量系統性能最重要的指標之一，系統響應延遲時間(即從用戶結束語音輸入到接收到識別反饋的等待時間)越短，用戶體驗越好。

在大詞匯量連續語音識別中，由于單個字符發音之間并沒有清晰的邊界，難以通過切分連續語音成孤立單詞串的方式識別。為此，在現有技術中，目前主要采用在由聲學模型及語言模型等知識構建的搜索網絡空間中，動態搜索最符合給定語音特征序列特點的單詞串的方法。顯然在大詞匯量連續語音識別系統中，由于語音信號及語言網絡的復雜性，由聲學模型和語言模型構建的識別網絡往往非常復雜，若系統采用高維精準復雜的語音特征，則在這種復雜的網絡中進行解碼搜索的計算壓力太大，容易導致反饋時間過長，影響用戶體驗。顯然如何合理應用高維精準的聲學特征在不影響系統響應速度的前提下提高模型匹配的準確度是當前在線語音識別系統實用化的重要保證。

為了均衡系統解碼效率和解碼準確率，在提高識別率的同時不占用過長的解碼時間，現今研究人員提出了多遍解碼的策略，首先采用快速搜索算法在由簡單聲學模型和大規模不受限的語言模型構成的初始搜索空間對提取的簡單聲學特征(通常為傳統的MFCC(Mel頻率倒譜系數)特征)進行粗略匹配，過濾不合理的識別結果并獲取識別結果集合；隨后系統利用更精準的復雜聲學模型和高階語言模型將一遍解碼生成的候選集合擴展成新的受限搜索網絡，并據此對新提取的復雜精準的聲學特征重估解碼獲取最優路徑。一遍解碼時，系統對輸入的每幀語音對應的所有活躍節點都保留N(N＞1)個最優歷史路徑(N-Path候選)，并在解碼結束時通過堆棧式解碼回溯N-Path獲取多候選識別結果。圖1示出了現有技術對語音輸入“訊飛語音溝通無限”的緊湊詞圖(Lattice)形式的識別結果。

在上述方法中，二遍解碼搜索空間大小主要由一遍解碼的參數N確定。若設置較大的N值雖然可以保證較高的正確率，但由于解碼中保留了較多的歷史路徑導致一遍解碼效率降低以及二遍解碼搜索空間規模加大。在該搜索空間上執行相對復雜的二遍解碼往往耗時過長，特別是在一遍解碼已經造成較大延時的情況下將帶來更大的延時。相反，若是設置較小的N值，則可能導致最優路徑過早剪除而沒有正確識別結果生成，影響解碼的準確率。可見，這種方法并不能很好地解決識別率以及識別效率的均衡問題。

發明內容

有鑒于此，本發明實施例提供一種語音識別方法及系統，以動態優化二遍搜索網絡，均衡不同情況下的解碼效率和準確率，優化系統解碼性能。

為此，本發明實施例提供如下技術方案：

一種語音識別方法，包括：

構建一遍解碼識別網絡；

對接收的語音信號在所述一遍解碼識別網絡中搜索得到一遍解碼候選項；

如果所述一遍解碼候選項滿足一遍解碼條件，則輸出一遍解碼得到的最優識別結果；

如果所述一遍解碼候選項不滿足一遍解碼條件，則根據一遍解碼延時以及解碼可信度對所述一遍解碼候選項進行優化處理；

根據優化處理后的一遍解碼候選項，構建二遍解碼識別網絡；

對接收的語音信號在所述二遍解碼識別網絡中進行二遍解碼，得到二遍解碼候選項；

輸出二遍解碼得到的最優識別結果。

一種語音識別系統，包括：