[發明專利]語音識別結果測試方法、裝置、計算機設備和介質有效

申請號：	201910667054.6	申請日：	2019-07-23
公開（公告）號：	CN110556098B	公開（公告）日：	2023-04-18
發明（設計）人：	劉麗珍;呂小立	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/26;G10L25/51
代理公司：	華進聯合專利商標代理有限公司 44224	代理人：	黃晶晶
地址：	518033 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別結果測試方法裝置計算機設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及人工智能技術領域，應用于語音識別行業，提供一種語音識別結果測試方法、裝置、計算機設備和存儲介質，隨機選擇任意應用場景下基于預設話術腳本的用戶答復語音數據，將用戶答復語音數據中用戶話段分為多個預設時間長度的子話段，提取各子話段的聲學特征，根據聲學特征獲取各子話段的情感標簽，將情感標簽與用戶答復語音數據線性拼接，并且添加子話段標識，將各個子話段對應的語音識別結果與標準語音識別結果比較，計數語音識別結果一致的子話段占比，可以高效且準確驗證已選擇應用場景下語音識別結果的準確性。

技術領域

本申請涉及人工智能技術領域，特別是涉及一種語音識別結果測試方法、裝置、計算機設備和存儲介質。

背景技術

隨著科學技術的發展，人工智能技術應用了越來越多的領域，給人們生產、生活帶來便利，語音識別技術作為人工智能技術的重要組成部分也得到的日新月異的發展與應用。

在語音識別技術中，ASR(Automatic?Speech?Recognition，自動語音識別技術)是目前比較廣泛使用的技術，具體來說，ASR是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性，語音識別系統只能在一定的限制條件下獲得滿意的性能且語音識別系統的性能多個因素。又由于在不同應用環境下多種因素情況不同，很容易造成在不同應用場景下ASR情感識別的正確率低的情況，若不對ASR進行驗證，很容易造成語音識別出錯，無法滿足業務需求。

因此，有必要提供一種準確的語音識別結果測試方案。

發明內容

基于此，有必要針對上述技術問題，提供一種測試準確的語音識別結果測試方法、裝置、計算機設備和存儲介質。

一種語音識別結果測試方法，所述方法包括：

隨機選擇任意應用場景下基于預設話術腳本的用戶答復語音數據；

獲取所述用戶答復語音數據中用戶話段，將所述用戶話段分為多個預設時間長度的子話段，并分配子話段標識；

提取各子話段的聲學特征，根據聲學特征獲取各子話段的情感標簽；

采用語音識別技術獲取所述各子話段對應的文本數據，將各子話段的情感標簽與對應的文本數據線性拼接，并添加所述子話段標識于所述情感標簽與所述文本數據之間，得到各子話段的語音識別結果；根據所述子話段標識，將所述各子話段的語音識別結果與已選擇應用場景下預設標準語音識別結果中攜帶的各子話段的語音識別結果逐一對比，計數語音識別結果一致的子話段占比，得到已選擇應用場景下語音識別結果的準確度。

在其中一個實施例中，所述提取各子話段的聲學特征，根據聲學特征獲取各子話段的情感標簽包括：

提取各子話段的聲學特征；

將提取的聲學特征輸入已訓練的基于深度學習的神經網絡模型，得到情感標簽。

在其中一個實施例中，上述語音識別結果測試還包括：

獲取不同情感標簽對應的答復語音樣本數據；

提取所述答復語音樣本數據中時間構造特征、振幅構造特征、基頻構造特征以及共振峰構造特征；

將所述答復語音樣本數據中情感標簽以及對應的時間構造特征、振幅構造特征、基頻構造特征以及共振峰構造特征作為訓練數據，訓練基于深度學習的神經網絡模型，得到已訓練的基于深度學習的神經網絡模型。

在其中一個實施例中，所述訓練基于深度學習的神經網絡模型，得到已訓練的基于深度學習的神經網絡模型包括：

提取所述訓練數據中情感標簽以及對應的時間構造特征、振幅構造特征、基頻構造特征以及共振峰構造特征；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于平安科技（深圳）有限公司，未經平安科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】