[發明專利]一種基于DTW的孤立詞語音識別方法在審

申請號：	201710264774.9	申請日：	2017-04-21
公開（公告）號：	CN107039037A	公開（公告）日：	2017-08-11
發明（設計）人：	鄧立新;周炳良;洪民江	申請（專利權）人：	南京郵電大學
主分類號：	G10L15/12	分類號：	G10L15/12;G10L15/06;G10L15/02
代理公司：	江蘇愛信律師事務所32241	代理人：	趙贊贊
地址：	210003 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 dtw 孤立詞語識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于語音識別技術領域，特別是涉及一種基于DTW的孤立詞語音識別方法。

背景技術

語音識別即讓機器接收、識別和理解語音信號，能夠“聽懂”會話中的語音語義并執行人類意圖。常用的識別方法包括動態時間規整(DTW)、隱馬爾科夫模型(HMM)和人工神經網絡(ANN)等。在孤立詞語音識別中，動態時間規整是最簡單有效的方法。DTW算法基于動態規劃(DP)的思想，能夠較好地解決孤立詞識別時說話速度不均勻的難題。相較于傳統的語音線性伸縮匹配的方法，DTW方法有效的提高了孤立詞語音識別系統的識別率，因此在特定場合下獲得較好的應用。

近年來，為了提高孤立詞語音識別系統的效率，使其廣泛地適用于市場和各類服務領域，科研人員提出了許多基于DTW的改進型語音識別算法，經典的主要有3種：基于音節個數的高效DTW算法、改變局部路徑限制的DTW算法以及增設參考模板閾值的DTW算法。

(1)基于音節個數的高效DTW算法，該算法利用雙門限檢測法預先檢測出語音信號中的音節個數，并將其只與含有相同音節個數的訓練模板進行最優匹配，減少了系統的計算開銷，提高了系統的識別效率。但該算法對雙門限閾值精度要求很高，一旦閾值設置不準確，系統識別效率將大幅降低。

(2)改變局部路徑限制的DTW算法，該算法改善了局部路徑節點前進的范圍，有利于解決測試語音特征矢量與模板矢量均勻變化劇烈的匹配問題，加快了兩矢量匹配的過程。但該算法增加了系統局部路徑搜索的復雜度和內存消耗，且不利于解決兩矢量均勻變化平緩的匹配過程。

(3)增設參考模板閾值的DTW算法，該算法在進行測試語音特征矢量與模板矢量匹配時，一旦計算出部分失真度大于預先增設的模板閾值，將終止對該模板繼續運算，轉入對其他模板繼續匹配運算。由于是中途停止對模板的匹配運算，因此可以節省部分計算開銷，提高了系統的識別效率。但該算法必須要為每一個模板預先找到一個合理的閾值，否則將無法減少系統的運算量，甚至大幅度降低系統的識別率。

發明內容

本發明的目的在于解決上述現有技術的不足，提出一種基于DTW的孤立詞語音識別方法，該方法通過提取測試語音信號的特征參數并截取測試語音特征矢量起始部分長度與庫模板矢量進行最優路徑匹配，并且匹配后只保留失真度較小的部分庫模板矢量繼續進行下一次最優路徑匹配，如此反復截取測試語音特征矢量的起始不同部分進行匹配與模板矢量保留，直至保留模板矢量唯一。

本發明的目的可以通過以下技術方法實現：

該方法基于傳統的語音訓練模式，改進了語音識別階段，先提取出測試語音信號的特征參數并截取測試語音特征矢量的起始部分長度，并從起點開始搜索它們與各個模板矢量的最優匹配路徑，采用松弛端點檢測的方法找到最優匹配路徑的止點并求出各自的最小累積距離D，即找出各模板矢量與截取語音特征矢量匹配度最大的起始部分長度并求出相應的D，然后選擇D相對較小的部分模板保留下來，排除掉D相對較大的模板。如此循環采用這種方法對剩余的模板進行部分長度匹配和排除，直至剩余模板數量唯一。

有益效果

本發明僅截取部分測試語音特征矢量與所有模板進行最優路徑匹配，便排除了大量的不可能模板。相較于傳統的利用全部語音特征矢量與模板進行最優路徑匹配，前者在保證了識別精度基本不變的情況下，大幅度減少了識別系統的運算量，有效提高了系統的識別效率。同時對比于上述第三種改進算法，本發明避免了預先設置模板閾值的問題，減少了系統的額外工作量。

附圖說明

圖1是本發明的語音識別流程圖。

圖2是本發明語音特征矢量起始部分截取方式示意圖。

圖3是本發明最優匹配路徑的全局限制示意圖。

圖4是本發明最優匹配路徑的局部限制示意圖。

具體實施方式

下面結合附圖對本發明創造作進一步的詳細說明。

如圖1所示，本發明是一種基于DTW孤立詞語音識別方法的研究。其基于傳統的語音訓練模式，針對語音識別階段加以改進，包括3個部分：語音信號預處理、特征參數提取和語音識別，下面將具體描述改進的識別階段內容。

本發明識別階段具體實施步驟包括如下：

1.語音信號預處理

語音信號預處理目的是分析處理輸入的語音信號，并將其轉化為語音預處理信號,其主要包括預加重、分幀加窗和端點檢測3個部分內容。

(1)預加重