[發明專利]音質控制方法、裝置、設備及存儲介質在審
| 申請號: | 202210511637.1 | 申請日: | 2022-05-10 |
| 公開(公告)號: | CN114974279A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 盛劍鋒;周駿華;程寶平 | 申請(專利權)人: | 中移(杭州)信息技術有限公司;中國移動通信集團有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/30;G10L25/18 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 劉瑞花 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音質 控制 方法 裝置 設備 存儲 介質 | ||
本申請公開了音質控制方法、裝置、設備及存儲介質,屬于語音處理技術領域。該方法包括基于實時語音降噪模型,對音頻數據進行降噪處理,所述實時語音降噪模型用于根據降噪參數對所述音頻數據進行降噪處理;對降噪處理后的音頻數據進行雙層自動增益控制。也就是說,在本申請中,實時語音降噪模型根據降噪參數對音頻數據進行降噪處理,提高了對音頻數據的降噪效果,并對降噪處理后的音頻數據進行雙層自動增益控制,擴大音量自動增益范圍,提高了音頻數據的音質質量。
技術領域
本申請涉及語音處理技術領域,尤其涉及一種音質控制方法、裝置、設備及存儲介質。
背景技術
在音源和采集設備距離較遠的情況下,噪聲的能量接近甚至超過目標音頻的能量,基于傳統語音降噪方法無法判斷目標音頻和噪聲,導致降噪效果不佳;基于傳統自動增益控制算法無法區分目標音頻和噪聲,無法對目標音頻進行放大,影響目標音頻的主觀聽感質量。也就是說,基于傳統語音降噪方法和傳統自動增益控制算法無法改善遠場音頻的音質質量,導致遠場音頻的音質質量較差。
發明內容
本申請的主要目的在于提供一種音質控制方法、裝置、設備及存儲介質,旨在解決基于傳統語音降噪方法和傳統自動增益控制算法無法改善遠場音頻的音質質量,導致遠場音頻的音質質量較差的技術問題。
為實現上述目的,本申請提供一種音質控制方法,包括以下步驟:
基于實時語音降噪模型,對音頻數據進行降噪處理,所述實時語音降噪模型用于根據降噪參數對所述音頻數據進行降噪處理;
對降噪處理后的音頻數據進行雙層自動增益控制。
可選地,所述基于實時語音降噪模型,對音頻數據進行降噪處理的步驟,包括:
對音頻數據進行噪聲場景判定,確定所述音頻數據對應的噪聲場景;
根據所述噪聲場景獲取與所述噪聲場景匹配的降噪參數;
基于所述降噪參數的實時語音降噪模型,對所述音頻數據進行降噪處理。
可選地,所述基于實時語音降噪模型,對音頻數據進行降噪處理的步驟之前,還包括:
獲取預設噪聲場景對應的音頻訓練數據;
提取所述音頻訓練數據的時域特征值和目標值。
基于語音活動檢測、噪聲譜估計和譜減構建的深度學習降噪模型,對所述時域特征值和所述目標值進行訓練,得到降噪參數;
使用所述降噪參數對實時語音降噪模型的參數進行更新。
可選地,所述對音頻數據進行噪聲場景判定,確定所述音頻數據對應的噪聲場景的步驟,包括:
對音頻數據對應的噪聲數據進行計算,根據計算得到的結果對噪聲的頻譜特性進行估計,得到噪聲譜估計值;
將所述噪聲譜估計值與噪聲場景各自對應的標準噪聲譜估計值進行比對,將比對結果最小值對應的噪聲場景確定為所述音頻數據對應的噪聲場景。
可選地,所述對降噪處理后的音頻數據進行雙層自動增益控制的步驟,包括:
對降噪處理后的音頻數據進行分幀處理,得到音頻幀;
若所述音頻幀為語音幀,則進行數字自動增益控制,獲取數字自動增益值;
若所述數字自動增益值大于或等于增益閾值,則進行模擬自動增益控制,獲取模擬自動增益步長,并將所述模擬自動增益步長反饋至音頻數據采集設備;
若所述數字自動增益值小于增益閾值,則輸出所述語音幀。
可選地,所述對降噪處理后的音頻數據進行雙層自動增益控制的步驟,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(杭州)信息技術有限公司;中國移動通信集團有限公司,未經中移(杭州)信息技術有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210511637.1/2.html,轉載請聲明來源鉆瓜專利網。





