[發明專利]音頻數據處理方法和裝置在審
| 申請號: | 202110362289.1 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113096679A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 陳誠 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/02;G10L21/0224 |
| 代理公司: | 上海光柵知識產權代理有限公司 31340 | 代理人: | 關浩;馬雯雯 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 數據處理 方法 裝置 | ||
本公開實施例提供一種音頻數據處理方法和裝置,該方法包括:獲取時域音頻數據;在時域音頻數據中提取第一聲學特征和第二聲學特征,兩個聲學特征的維度小于預設維度;將第一聲學特征和第二聲學特征進行拼接得到輸入特征;將輸入特征輸入至預先建立的語音增強模型中,在語音增強模型的網絡層之間進行特征疊加處理,得到音頻數據對應的掩膜特征;將掩膜特征擴展到頻域后與時域音頻數據的幅度譜特征相乘,得到所述音頻數據中的人聲預測結果。本公開實施例在實現抑制音頻數據中的噪聲的同時能夠進一步降低特征維度,從而極大的降低了模型的參數量和計算復雜度,即使在實時通信場景下,也能夠快速抑制語音數據中的噪聲,得到更清晰、純凈的人聲信號。
技術領域
本公開實施例涉及音頻處理技術領域,尤其涉及一種音頻數據處理方法和裝置。
背景技術
近年來,語音通信、視頻通信等網絡通信技術的發展極大的方便了人們的溝通需求。但是,用戶在進行通信的過程中,音頻數據往往會受到環境噪聲、傳輸信道中的噪聲等噪聲影響,導致語音不清晰,影響通話質量。因此,亟需一種語音增強方法來對帶噪聲語音中的噪聲部分進行抑制,同時,盡量保留音頻數據中純凈語音部分,以提高語音質量。
相關技術中,常用的基于深度學習的語音增強方法是,基于深度學習的理想浮值掩蔽(Ideal Ratio Mask,IRM)的技術,先將時域語音數據變換到二維時頻表達,對每個時頻單元進行計算得到語音信號和噪聲之間的能量比,然后根據計算得到的能量比確定權重以改變時頻單元的能量大小,調整各個時頻單元上對噪聲的抑制程度,進而提升語音質量。
但是,現有的上述方法往往需要大量的計算時頻單元能量的神經元和權重,導致整個過程計算復雜度很高。而由于在實時通信場景中需要對瞬態噪聲進行抑制,大量復雜的計算過程需要浪費較多的時間,從而導致對噪聲的抑制效果差的問題。
發明內容
本公開實施例提供一種音頻數據處理方法和裝置,以克服現有技術中在實時通信場景中需要對瞬態噪聲進行抑制,大量復雜的計算過程需要浪費較多的時間,從而導致對噪聲的抑制效果差的問題。
第一方面,本公開實施例提供一種音頻數據處理方法,包括:
獲取時域音頻數據;
在所述時域音頻數據中分別提取第一聲學特征和第二聲學特征,所述第一聲學特征和所述第二聲學特征的維度小于預設維度;
將所述第一聲學特征和所述第二聲學特征進行拼接,得到輸入特征;
將所述輸入特征輸入至預先建立的語音增強模型中,以在所述語音增強模型的網絡層之間進行特征疊加處理,得到所述音頻數據對應的掩膜特征;
將所述掩膜特征擴展到頻域后與所述時域音頻數據的幅度譜特征相乘,得到所述音頻數據中的人聲預測結果。
第二方面,本公開實施例提供一種音頻數據處理裝置,包括:
數據獲取模塊,用于獲取時域音頻數據;
特征提取模塊,用于在所述時域音頻數據中分別提取第一聲學特征和第二聲學特征,所述第一聲學特征和所述第二聲學特征的維度小于預設維度;
特征拼接模塊,用于將所述第一聲學特征和所述第二聲學特征進行拼接,得到輸入特征;
特征處理模塊,用于將所述輸入特征輸入至預先建立的語音增強模型中,以在所述語音增強模型的網絡層之間進行特征疊加處理,得到所述音頻數據對應的掩膜特征;
人聲預測模塊,用于將所述掩膜特征擴展到頻域后與所述時域音頻數據的幅度譜特征相乘,得到所述音頻數據中的人聲預測結果。
第三方面,本公開實施例提供一種電子設備,包括:至少一個處理器和存儲器;
所述存儲器存儲計算機執行指令;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362289.1/2.html,轉載請聲明來源鉆瓜專利網。





