[發明專利]語音識別方法及系統在審

申請號：	201910506115.0	申請日：	2019-06-12
公開（公告）號：	CN110223678A	公開（公告）日：	2019-09-10
發明（設計）人：	萬光輝	申請（專利權）人：	蘇州思必馳信息科技有限公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/06
代理公司：	北京商專永信知識產權代理事務所(普通合伙) 11400	代理人：	方挺;黃謙
地址：	215123 江蘇省蘇州市蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	標簽序列后驗概率語音識別對話語音語音文件相似度詞表學習神經網絡語音識別系統最大相似度平滑處理音頻特征語音標簽不等長詞集合遍歷映射發音詞語標簽
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供一種語音識別方法。該方法包括：將提取到的語音文件每一幀的音頻特征輸入至深度學習神經網絡中，確定每一幀的后驗概率，通過對每一幀的后驗概率進行平滑處理，確定組成對話語音關鍵詞；確定關鍵詞所在的串詞集合；獲取語音文件中每幀的后驗概率最大值對應的標簽組成的第一標簽序列，以及各待選詞發音映射確定的第二標簽序列，遍歷第一標簽序列與各待選詞對應的第二標簽序列的相似度，將最大相似度對應的待選詞作為對話語音的識別詞語。本發明實施例還提供一種語音識別系統。本發明實施例所考慮的因素和現有的打分方法完全不同，通過串詞表確定出串詞時，確定各串詞的不等長標簽序列與語音標簽序列的相似度，從而實現語音識別。

技術領域

本發明涉及智能語音領域，尤其涉及一種語音識別方法及系統。

背景技術

語音識別通常采用混合高斯模型-隱馬爾可夫模型性訓練得到聲學模型，再通過深度神經網絡的輸出每個漢語拼音的后驗概率，利用后驗概率計算得分和預定的信息進行比較，從而判斷關鍵詞是否在語音段中。

語音識別通常是通過深度神經網絡模型進行識別解碼，就需提前訓練深度神經網絡，在訓練中，通常在接收到訓練音頻文件后，對訓練音頻文件進行分幀，從而提取各分幀的音頻特征，拼幀后獲得訓練數據，每一幀進行對齊操作后進行訓練深度神經網絡模型。在音頻解碼時，先對音頻文件進行分幀，之后再進行特征提取，拼幀后獲輸入至訓練好的深度神經網絡模型中，得到每一幀的后驗概率，再按照一定的方式進行打分，得分與設定的關鍵詞閾值比較，達到閾值時，則判斷關鍵詞被識別到。

在實現本發明過程中，發明人發現相關技術中至少存在如下問題：

隨著說話人的情緒或者周圍的環境，說話人的語速會有一定的變化，說話的速度會時快時慢，或者突然集中在某一處快速說話，使得容易讓他人聽出串詞的感覺。而在多關鍵詞檢測中，通常會出現串詞，隨著說話人的語速，串詞出現的頻率可能會更加嚴重，而現有的方法對于相似關鍵詞鑒別能力較弱。由于深度神經網絡的太小可能會導致后驗概率不準，由于語速快或串詞相似的發音而導致的后驗概率不準，現有的打分方式無法彌補上述的缺陷。

發明內容

為了至少解決現有技術中由于深度神經網絡的太小可能會導致后驗概率不準，由于語速快或串詞相似的發音而導致的后驗概率不準，現有的打分方式無法彌補上述的缺陷的問題。

第一方面，本發明實施例提供一種語音識別方法，包括：

將提取到的語音文件每一幀的音頻特征輸入至深度學習神經網絡中，確定每一幀的后驗概率，通過對每一幀的后驗概率進行平滑處理，確定組成所述對話語音的關鍵詞；

檢測所述關鍵詞是否在預設易串詞表中，若是，則確定所述關鍵詞所在的串詞集合；

獲取所述語音文件中每幀的后驗概率最大值對應的標簽組成的第一標簽序列，以及所述各待選詞發音映射確定的第二標簽序列，通過動態時間規整算法依次遍歷所述第一標簽序列與各待選詞對應的第二標簽序列的相似度，將最大相似度對應的待選詞作為所述對話語音的識別詞語，其中，所述各標簽序列間可以不等長。

第二方面，本發明實施例提供一種語音識別系統，包括：

關鍵詞確定程序模塊，用于將提取到的語音文件每一幀的音頻特征輸入至深度學習神經網絡中，確定每一幀的后驗概率，通過對每一幀的后驗概率進行平滑處理，確定組成所述對話語音的關鍵詞；

易串詞檢測程序模塊，用于檢測所述關鍵詞是否在預設易串詞表中，若是，則確定所述關鍵詞所在的串詞集合；

識別程序模塊，用于獲取所述語音文件中每幀的后驗概率最大值對應的標簽組成的第一標簽序列，以及所述各待選詞發音映射確定的第二標簽序列，通過動態時間規整算法依次遍歷所述第一標簽序列與各待選詞對應的第二標簽序列的相似度，將最大相似度對應的待選詞作為所述對話語音的識別詞語，其中，所述各標簽序列間可以不等長。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載