[發明專利]一種音頻數據處理方法、設備以及計算機可讀存儲介質有效
| 申請號: | 202010975371.7 | 申請日: | 2020-09-16 |
| 公開(公告)號: | CN112071330B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 王珺 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L21/028 | 分類號: | G10L21/028;G10L21/0216;G10L25/30 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 數據處理 方法 設備 以及 計算機 可讀 存儲 介質 | ||
1.一種音頻數據處理方法,其特征在于,包括:
獲取聲源混合音頻數據,將所述聲源混合音頻數據輸入至音頻分離模型;所述音頻分離模型包括通用分離組件、第一注意力網絡層以及第二注意力網絡層;
基于所述通用分離組件對所述聲源混合音頻數據進行聲源分離預處理,得到通用分離音頻特征;
將所述通用分離音頻特征分別輸入至所述第一注意力網絡層以及所述第二注意力網絡層;
在所述第一注意力網絡層中,對所述通用分離音頻特征進行特征提取處理,得到目標分離音頻特征,對所述目標分離音頻特征進行特征映射處理,生成至少一個聲源分別對應的上下文初始音頻特征,根據所述上下文初始音頻特征以及所述通用分離音頻特征,生成所述至少一個聲源分別對應的上下文目標音頻特征,將所述上下文目標音頻特征輸入至所述第二注意力網絡層;
在所述第二注意力網絡層中,對所述通用分離音頻特征進行隱藏特征提取處理,得到所述通用分離音頻特征對應的分離隱藏音頻特征,根據所述上下文目標音頻特征以及所述通用分離音頻特征對應的分離隱藏音頻特征,生成所述通用分離音頻特征對應的分離過渡音頻特征,根據所述通用分離音頻特征對應的分離過渡音頻特征,生成至少一個分離優化音頻特征;
根據所述至少一個分離優化音頻特征,生成所述至少一個聲源分別對應的重構聲源音頻。
2.根據權利要求1所述的方法,其特征在于,所述第一注意力網絡層包括第一分離組件以及嵌入組件;
所述對所述通用分離音頻特征進行特征提取處理,得到目標分離音頻特征,對所述目標分離音頻特征進行特征映射處理,生成至少一個聲源分別對應的上下文初始音頻特征,根據所述上下文初始音頻特征以及所述通用分離音頻特征,生成所述至少一個聲源分別對應的上下文目標音頻特征,包括:
通過所述第一分離組件,對所述通用分離音頻特征進行特征提取處理,得到所述目標分離音頻特征,將所述目標分離音頻特征輸入至所述嵌入組件;
通過所述嵌入組件,對所述目標分離音頻特征進行特征映射處理,生成所述至少一個聲源分別對應的上下文初始音頻特征;
根據所述上下文初始音頻特征以及所述通用分離音頻特征,生成所述至少一個聲源分別對應的第一注意力分布參數;
根據所述第一注意力分布參數以及所述上下文初始音頻特征,生成所述上下文目標音頻特征。
3.根據權利要求2所述的方法,其特征在于,所述第一注意力網絡層包括第一注意力機制組件;
所述根據所述上下文初始音頻特征以及所述通用分離音頻特征,生成所述至少一個聲源分別對應的第一注意力分布參數,包括:
對所述通用分離音頻特征進行降維處理,得到期望分離音頻特征;
將所述上下文初始音頻特征以及所述期望分離音頻特征輸入至所述第一注意力機制組件;所述上下文初始音頻特征包括上下文初始音頻特征Yj,所述至少一個聲源包括聲源Sj,其中,j為正整數,且j小于或等于所述至少一個聲源的聲源總數量;
在所述第一注意力機制組件中,根據所述上下文初始音頻特征Yj以及所述期望分離音頻特征,生成所述聲源Sj對應的第一注意力分布參數Cj;
則所述根據第一注意力分布參數以及所述上下文初始音頻特征,生成所述上下文目標音頻特征,包括:
根據所述第一注意力分布參數Cj以及所述上下文初始音頻特征Yj,生成所述聲源Sj對應的上下文目標音頻特征Zj。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010975371.7/1.html,轉載請聲明來源鉆瓜專利網。





