[發明專利]音頻數據處理方法和裝置在審
| 申請號: | 202110362289.1 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113096679A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 陳誠 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/02;G10L21/0224 |
| 代理公司: | 上海光柵知識產權代理有限公司 31340 | 代理人: | 關浩;馬雯雯 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 數據處理 方法 裝置 | ||
1.一種音頻數據處理方法,其特征在于,方法包括:
獲取時域音頻數據;
在所述時域音頻數據中分別提取第一聲學特征和第二聲學特征,所述第一聲學特征和所述第二聲學特征的維度小于預設維度;
將所述第一聲學特征和所述第二聲學特征進行拼接,得到輸入特征;
將所述輸入特征輸入至預先建立的語音增強模型中,以在所述語音增強模型的網絡層之間進行特征疊加處理,得到所述音頻數據對應的掩膜特征;
將所述掩膜特征擴展到頻域后與所述時域音頻數據的幅度譜特征相乘,得到所述音頻數據的人聲預測結果。
2.根據權利要求1所述的方法,其特征在于,所述第一聲學特征為巴克頻率倒譜系數BFCC特征,所述在所述時域音頻數據中提取第一聲學特征,包括:
對所述時域音頻數據進行短時傅里葉變換,得到所述音頻數據在復頻域的幅度譜特征;
根據所述幅度譜特征,確定所述音頻數據的功率譜;
將所述功率譜映射至巴克域,得到巴克域功率譜數據;
對所述巴克域功率譜數據取對數,并對所述對數進行離散余弦變換,得到所述BFCC特征。
3.根據權利要求1所述的方法,其特征在于,所述第二聲學特征為基音Pitch特征,所述在所述時域音頻數據中提取第二聲學特征,包括:
基于基音提取算法,提取所述音頻數據的Pitch特征。
4.根據權利要求1所述的方法,其特征在于,所述語音增強模型包括三層門控循環單元GRU網絡和三個全連接層,所述將所述輸入特征輸入至預先建立的語音增強模型中,以在所述語音增強模型的網絡層之間進行特征疊加處理,得到所述音頻數據對應的掩膜特征,包括:
將所述輸入特征依次輸入至第一全連接層和第一GRU網絡,對所述第一全連接層和第一GRU網絡分別輸出的特征進行第一次特征疊加處理;
將所述第一次疊加處理得到的特征輸入第二GRU網絡,對所述第二GRU網絡輸出的特征進行第二次特征疊加處理;
將所述第二次特征疊加處理得到的特征依次輸入第三GRU網絡和第二全連接層,得到輸出特征;
將所述輸出特征映射為掩膜特征。
5.根據權利要求4所述的方法,其特征在于,所述將所述輸入特征依次輸入至第一全連接層和第一GRU網絡,對所述第一全連接層和第一GRU網絡分別輸出的特征進行第一次特征疊加處理,包括:
將所述輸入特征輸入至第一全連接層,所述第一全連接層將所述輸入特征映射為第一中間特征,所述第一中間特征的維度低于所述輸入特征的維度;
將所述第一中間特征輸入至第一GRU網絡,得到所述第一GRU網絡輸出的第二中間特征;
將所述第一中間特征與所述第二中間特征進行疊加,得到第三中間特征。
6.根據權利要求5所述的方法,其特征在于,所述將所述第一次疊加處理得到的特征輸入第二GRU網絡,對所述第二GRU網絡輸出的特征進行第二次特征疊加處理,包括:
將所述第三中間特征輸入至第二GRU網絡,得到所述第二GRU網絡輸出的第四中間特征;
將所述第三中間特征與所述第四中間特征進行疊加,得到第五中間特征。
7.根據權利要求6所述的方法,其特征在于,所述將所述第二次特征疊加處理得到的特征依次輸入第三GRU網絡和第二全連接層,得到輸出特征,包括:
將所述第五中間特征輸入至第三GRU網絡,得到所述第三GRU網絡輸出的第六中間特征;
將所述第六中間特征輸入至第二全連接層,所述第二全連接層將所述第六中間特征映射為輸出特征,所述輸出特征的維度小于所述第六中間特征的維度。
8.根據權利要求5-7任一項所述的方法,其特征在于,還包括:
將所述第二中間特征輸入至第三全連接層,所述第三全連接層將所述第二中間特征映射為維度為二的語音概率輸出VAD特征,并將所述VAD特征的數值映射到預設數值范圍內,所述預設數值范圍為[0,1],所述語音概率輸出特征用于判斷所述音頻數據中是否存在人聲信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362289.1/1.html,轉載請聲明來源鉆瓜專利網。





