[發明專利]音頻信號處理方法及裝置在審
| 申請號: | 202210141643.2 | 申請日: | 2022-02-16 |
| 公開(公告)號: | CN114203163A | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 胡貝貝;夏日升;許劍峰 | 申請(專利權)人: | 榮耀終端有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 戴皓 |
| 地址: | 518040 廣東省深圳市福田區香蜜湖街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 信號 處理 方法 裝置 | ||
1.一種音頻信號處理方法,其特征在于,應用于電子設備,所述方法包括:
將原始立體聲信號輸入基于神經網絡的人聲提取模型,進行人聲信號識別和提取,獲得第一人聲信號和背景聲信號,所述背景聲信號包括左聲道背景聲信號和右聲道背景聲信號;
擴展所述背景聲信號的聲場獲得擴展背景聲信號;
對所述第一人聲信號進行語音檢測,獲得目標人聲信號;
將所述擴展背景聲信號和所述目標人聲信號進行混音處理,得到目標輸出音頻信號。
2.根據權利要求1所述的方法,其特征在于,所述人聲提取模型為頻域的人聲提取模型;
所述將原始立體聲信號輸入基于神經網絡的人聲提取模型,進行人聲信號識別和提取,獲得第一人聲信號、左聲道背景聲信號和右聲道背景聲信號,包括:
將所述原始立體聲信號進行時頻轉換獲得頻域立體聲信號;
將所述頻域立體聲信號輸入至所述人聲提取模型,提取所述頻域立體聲信號對應的頻譜特征,并分析所述頻譜特征獲得所述頻域立體聲信號對應的人聲掩碼和背景聲掩碼,所述人聲掩碼表征所述頻域立體聲信號中每一幀聲音信號是否是人聲信號,所述背景聲掩碼表征所述頻域立體聲信號中每一幀聲音信號是否是背景聲信號;
將所述頻域立體聲信號對應的向量與所述人聲掩碼進行向量乘法運算,獲得所述頻域立體聲信號中的頻域人聲信號;
將所述頻域立體聲信號與所述背景聲掩碼進行向量乘法運算,獲得所述頻域立體聲信號包含的左聲道頻域背景聲信號和右聲道頻域背景聲信號;
將所述頻域人聲信號進行頻時轉換獲得時域的所述人聲信號;
將所述左聲道頻域背景聲信號和所述右聲道頻域背景聲信號進行頻時轉換獲得時域的所述背景聲信號。
3.根據權利要求1所述的方法,其特征在于,所述人聲提取模型能夠處理時域的音頻信號;
所述將原始立體聲信號輸入基于神經網絡的人聲提取模型,進行人聲信號識別和提取,獲得第一人聲信號、左聲道背景聲信號和右聲道背景聲信號,包括:
將所述原始立體聲信號對應的向量輸入至所述人聲提取模型,提取所述原始立體聲信號的特征向量,并分析所述特征向量,獲得所述原始立體聲信號對應的人聲掩碼和背景聲掩碼,所述人聲掩碼表征所述立體聲信號中每一幀聲音信號是否是人聲信號,所述背景聲掩碼表征頻域立體聲信號中每一幀聲音信號是否是背景聲信號;
將所述原始立體聲信號的特征向量與所述人聲掩碼進行向量乘法運算,獲得所述人聲信號;
將所述原始立體聲信號的特征向量與所述背景聲掩碼進行向量乘法運算,獲得所述左聲道背景聲信號和所述右聲道背景聲信號。
4.根據權利要求1所述的方法,其特征在于,所述人聲提取模型為頻域的人聲提取模型;
所述人聲提取模型的訓練過程包括:
獲取人聲樣本數據和背景聲樣本數據;
對所述人聲樣本數據進行時頻變換,獲得所述人聲樣本數據對應的真實人聲頻譜;
將所述人聲樣本數據與背景聲樣本數據進行混音處理,獲得混合音頻樣本;
對所述混合音頻樣本進行時頻變換,獲得所述混合音頻樣本對應的頻譜;
將所述混合音頻樣本對應的頻譜輸入待訓練人聲提取模型,獲得人聲掩碼,根據所述混合音頻樣本和所述人聲掩碼獲得估計人聲頻譜;
根據同一人聲樣本數據對應的所述真實人聲頻譜和所述估計人聲頻譜,獲得損失值;
如果所述損失值不滿足預設收斂條件,調整所述待訓練人聲提取模型的模型參數,利用調整后的待訓練人聲提取模型獲得新的估計人聲頻譜,并計算所述新的估計人聲頻譜與所述真實人聲頻譜的損失值,直到所述損失值滿足所述預設收斂條件,獲得所述人聲提取模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于榮耀終端有限公司,未經榮耀終端有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210141643.2/1.html,轉載請聲明來源鉆瓜專利網。





