[發明專利]音頻質量檢測方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110310517.0 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113077821A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 陳婷;田大有;梁爽;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/51;G10L25/03;G10L25/21;G10L15/26;H04M3/51 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;楊毅玲 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 質量 檢測 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及人工智能技術領域,提供一種音頻質量檢測方法、裝置、電子設備及存儲介質,所述方法包括:解析音頻質量檢測請求獲取第一音頻進行預處理得到第二音頻;從第二音頻中提取多個音頻特征值和多個音質特征值;對多個音頻特征值和多個音質特征值進行異常檢測得到異常檢測結果;根據每個音頻特征值的第一異常分數閾值、每個音質特征值的第二異常分數閾值和異常檢測結果確定第二音頻的目標異常檢測結果。本發明通過從音頻特征和音質特征兩個維度對第二音頻進行質量檢測,排除主觀原因導致得到的音頻文件效果參差不齊的問題,提高了音頻質量檢測的準確率。此外,本發明還涉及區塊鏈技術領域,第一音頻存儲于區塊鏈節點中。
技術領域
本發明涉及人工智能技術領域,具體涉及一種音頻質量檢測方法、裝置、電子設備及存儲介質。
背景技術
目前語音合成技術(TTS,Text To Speech)已經在在電話客服,語音機器人,智能應答等領域得到越來越廣泛的應用,經由神經網絡學習實現的TTS技術,在神經網絡的訓練過程中,選取清晰、發音穩定、音質清晰的音頻作為訓練數據尤為重要,現有技術主要由人工進行聽檢、抽檢進行音頻檢測,獲取訓練數據。
然而,由于不同檢查者的聽感不同、標準不同,容易引起檢測出的音頻文件的效果參差不齊的問題,導致音頻質量檢測的準確率和效率低下。
因此,有必要提供一種可以快速準確的檢測音頻質量的方法。
發明內容
鑒于以上內容,有必要提出一種音頻質量檢測方法、裝置、電子設備及存儲介質,通過從音頻特征和音質特征兩個維度對所述第二音頻進行質量檢測,排除主觀原因導致得到的音頻文件效果參差不齊的問題,提高了音頻質量檢測的準確率。
本發明的第一方面提供一種音頻質量檢測方法,所述方法包括:
解析客戶端發送的音頻質量檢測請求獲取第一音頻;
對所述第一音頻進行預處理得到第二音頻;
從所述第二音頻中提取多個音頻特征值和多個音質特征值;
對所述多個音頻特征值和所述多個音質特征值進行異常檢測,得到異常檢測結果;
根據每個音頻特征值的第一異常分數閾值、每個音質特征值的第二異常分數閾值和所述異常檢測結果確定所述第二音頻的目標異常檢測結果。
可選地,所述對所述第一音頻進行預處理得到第二音頻包括:
對所述第一音頻進行降噪處理,得到降噪后的第一音頻;
對所述降噪后的第一音頻進行語音活性檢測得到第二音頻。
可選地,所述對所述降噪后的第一音頻進行語音活性檢測得到第二音頻包括:
檢測所述降噪后的第一音頻中的每個句子的音頻時長;
判斷每個句子的音頻時長是否滿足預設的音頻時長閾值要求;
當每個句子的音頻時長滿足所述預設的音頻時長閾值要求時,將所述第一音頻中的每個句子作為第二音頻;或者
當任意一個句子的音頻時長不滿足所述預設的音頻時長閾值要求時,刪除所述第一音頻中的任意一個句子,保留所述第一音頻中的其余句子作為第二音頻。
可選地,所述從所述第二音頻中提取多個音頻特征值和多個音質特征值包括:
對所述第二音頻的音頻信號采用預加重濾波器進行處理得到目標音頻信號;
將所述目標音頻信號切分為多個短時幀;
對每個短時幀乘以一個預設的窗函數得到加窗后的短時幀;
計算每個加窗后的短時幀傅里葉變換后的功率譜;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110310517.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車輪胎裝卸設備
- 下一篇:一種炒菜機進菜裝置用齒輪傳動機構





