[發明專利]音頻處理方法、裝置、存儲介質及計算機程序有效
| 申請號: | 202111194926.5 | 申請日: | 2021-10-14 |
| 公開(公告)號: | CN113643714B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 王子騰;納躍躍;劉章;田彪;付強 | 申請(專利權)人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 存儲 介質 計算機 程序 | ||
1.一種音頻處理方法,其特征在于,包括:
獲取待測試音頻的特征向量;
將所述待測試音頻的特征向量輸入目標模型進行處理,得到目標時頻掩蔽信息,其中,所述目標模型用于確定混響音頻對應的時頻掩蔽信息,所述時頻掩蔽信息用于將所述混響音頻處理為目標類型音頻,所述目標類型音頻中包含所述混響音頻對應的聲源的直達聲和早期反射聲;
根據所述目標時頻掩蔽信息處理所述待測試音頻,得到目標音頻;
在所述將所述待測試音頻的特征向量輸入目標模型進行處理,得到目標時頻掩蔽信息之前,所述方法還包括:
分別獲取不同空間內的聲源對應的房間沖擊響應特征,并獲取所述房間沖擊響應特征中的直達聲;
根據每個聲源發出的語音與對應的所述房間沖擊響應特征確定所述聲源對應的混響音頻,并根據所述聲源發出的語音與所述早期反射聲確定所述聲源對應的目標類型音頻;
根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息;
將每個所述混響音頻以及所述混響音頻對應的時頻掩蔽信息確定為一組樣本數據,得到多組樣本數據;
通過所述多組樣本數據訓練預設神經網絡模型,生成所述目標模型。
2.根據權利要求1所述的音頻處理方法,其特征在于,所述待測試音頻為目標空間中至少兩個采集器對聲源進行采集得到的音頻,所述目標模型用于確定同一聲源的至少兩個混響音頻對應的時頻掩蔽信息,所述獲取待測試音頻的特征向量包括:
分別計算所述目標空間中每個采集器采集到的音頻的特征向量,得到至少兩個特征向量;
對所述至少兩個特征向量進行拼接,生成所述待測試音頻的特征向量。
3.根據權利要求1所述的音頻處理方法,其特征在于,在所述根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息之前,所述方法還包括:
在所述聲源的所述混響音頻中加入噪聲信息,得到處理后的混響音頻;
所述根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息包括:
根據所述處理后的混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息。
4.根據權利要求1所述的音頻處理方法,其特征在于,所述獲取待測試音頻的特征向量包括:
對所述待測試音頻進行傅里葉變換,得到所述待測試音頻的頻域信息,從所述頻域信息中獲取所述待測試音頻的特征向量;
所述根據所述目標時頻掩蔽信息處理所述待測試音頻,得到目標音頻包括:
采用所述目標時頻掩蔽信息處理所述待測試音頻,得到目標頻域信息,并對所述目標頻域信息進行逆傅里葉變換,得到所述目標音頻。
5.根據權利要求4所述的音頻處理方法,其特征在于,所述采用所述目標時頻掩蔽信息處理所述待測試音頻,得到目標頻域信息包括:
將所述目標時頻掩蔽信息處理與所述待測試音頻對應的時頻譜信息相乘,得所述目標頻域信息。
6.根據權利要求1所述的音頻處理方法,其特征在于,所述根據所述目標時頻掩蔽信息處理所述待測試音頻,得到目標音頻包括:
對所述目標時頻掩蔽信息進行平滑處理,并采用處理后的目標時頻掩蔽信息對所述待測試音頻進行處理,得到所述目標音頻;或者
采用所述目標時頻掩蔽信息處理所述待測試音頻,得到處理后的音頻,并對所述處理后的音頻進行平滑處理,得到所述目標音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴達摩院(杭州)科技有限公司,未經阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111194926.5/1.html,轉載請聲明來源鉆瓜專利網。





