[發明專利]一種基于語音識別的異常檢測方法及裝置有效
| 申請號: | 202110445990.X | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113223495B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 黃辰 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L15/02 |
| 代理公司: | 北京曼威知識產權代理有限公司 11709 | 代理人: | 方志煒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 識別 異常 檢測 方法 裝置 | ||
本說明書公開了一種基于語音識別的異常檢測方法及裝置,可先獲取識別錯誤的音頻數據及其在全局搜索空間中的錯誤識別路徑。之后,根據該音頻數據的標注結果,確定該音頻數據對應的音素序列,以基于該音素序列,確定該音頻數據的局部搜索空間,并從該局部搜索空間中確定該音頻數據的正確識別路徑。最后,結合該音頻數據的錯誤識別路徑以及正確識別路徑,確定語音識別產生異常的原因類型。通過比較同一音頻數據的錯誤識別路徑以及正確識別路徑,從而定位語音識別異常的原因,提高了語音識別異常檢測的效率,降低了人為歸因的成本。
技術領域
本申請涉及語音識別技術領域,尤其涉及一種基于語音識別的異常檢測方法及裝置。
背景技術
語音識別是將人的語音信號轉換為文字的過程,隨著人工智能技術的發展,語音識別也廣泛應用于各個領域,如,智能機器人等。
圖1為語音識別原理的基本框架圖,在語音識別過程中,具體的,可先對待識別的語音段進行預處理,得到該語音段中每幀語音的音頻特征。之后,將該語音段對應的音頻特征序列,輸入語音識別的解碼器中進行解碼,得到該語音段的識別結果。其中,解碼的過程就是從全局搜索空間中找尋最優路徑的過程,而該全局搜索空間是預先基于聲學模型、語言模型以及發音詞典構建的。
但是實際的語音識別過程中,并非所有語音段都能得到正確識別,往往還存在部分識別出錯的語音段。而對于識別出錯的語音段,則需要對該語音段進行分析,確定識別出錯的原因,以調試優化解碼器。
目前在分析語音段識別出錯的原因時,往往由研發人員根據經驗分析,準確度以及效率均較低,且人力成本較高。因此如何高效準確的確定語音段識別出錯的原因,成為亟待解決的問題。
發明內容
本說明書實施例提供一種基于語音識別的異常檢測方法及裝置,用于部分解決現有技術中的問題。
本說明書實施例采用下述技術方案:
本說明書提供的一種基于語音識別的異常檢測方法,包括:
獲取識別錯誤的音頻數據及其在全局搜索空間中確定的識別路徑,作為錯誤識別路徑;
確定所述音頻數據的標注結果,并根據所述標注結果,確定所述音頻數據對應的音素序列;
根據所述音素序列,確定所述音頻數據的局部搜索空間,并確定所述音頻數據在所述局部搜索空間中的識別路徑,作為正確識別路徑;
根據所述錯誤識別路徑以及所述正確識別路徑,確定語音識別產生異常的原因類型。
可選地,根據所述標注結果,確定所述音頻數據對應的標注音素序列,具體包括:
根據所述標注結果,以及發音詞典中各音素與各詞語的映射關系,確定所述音頻數據對應的音素序列。
可選地,根據所述音素序列,確定所述音頻數據的局部搜索空間,具體包括:
根據所述音素序列中各音素的排列順序,以及預設的若干靜音單元,確定所述音頻數據的若干待選識別路徑;
根據確定出的若干待選識別路徑,確定所述音頻數據的局部搜索空間。
可選地,確定所述音頻數據在所述局部搜索空間中的識別路徑,具體包括:
獲取所述音頻數據通過聲學模型得到的匹配結果;
根據所述匹配結果,確定所述音頻數據在所述局部搜索空間中的識別路徑。
可選地,所述音頻數據通過聲學模型得到的匹配結果采用以下方式確定:
針對所述音頻數據包含的每幀音頻,確定該幀音頻的音頻特征;
將該幀音頻的音頻特征輸入聲學模型中,確定所述聲學模型輸出的匹配結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110445990.X/2.html,轉載請聲明來源鉆瓜專利網。





