[發明專利]一種音頻數據處理方法、設備以及計算機可讀存儲介質有效

申請號：	202010975371.7	申請日：	2020-09-16
公開（公告）號：	CN112071330B	公開（公告）日：	2022-09-20
發明（設計）人：	王珺	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G10L21/028	分類號：	G10L21/028;G10L21/0216;G10L25/30
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	熊永強;杜維
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻數據處理方法設備以及計算機可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種音頻數據處理方法，其特征在于，包括：

獲取聲源混合音頻數據，將所述聲源混合音頻數據輸入至音頻分離模型；所述音頻分離模型包括通用分離組件、第一注意力網絡層以及第二注意力網絡層；

基于所述通用分離組件對所述聲源混合音頻數據進行聲源分離預處理，得到通用分離音頻特征；

將所述通用分離音頻特征分別輸入至所述第一注意力網絡層以及所述第二注意力網絡層；

在所述第一注意力網絡層中，對所述通用分離音頻特征進行特征提取處理，得到目標分離音頻特征，對所述目標分離音頻特征進行特征映射處理，生成至少一個聲源分別對應的上下文初始音頻特征，根據所述上下文初始音頻特征以及所述通用分離音頻特征，生成所述至少一個聲源分別對應的上下文目標音頻特征，將所述上下文目標音頻特征輸入至所述第二注意力網絡層；

在所述第二注意力網絡層中，對所述通用分離音頻特征進行隱藏特征提取處理，得到所述通用分離音頻特征對應的分離隱藏音頻特征，根據所述上下文目標音頻特征以及所述通用分離音頻特征對應的分離隱藏音頻特征，生成所述通用分離音頻特征對應的分離過渡音頻特征，根據所述通用分離音頻特征對應的分離過渡音頻特征，生成至少一個分離優化音頻特征；

根據所述至少一個分離優化音頻特征，生成所述至少一個聲源分別對應的重構聲源音頻。

2.根據權利要求1所述的方法，其特征在于，所述第一注意力網絡層包括第一分離組件以及嵌入組件；

所述對所述通用分離音頻特征進行特征提取處理，得到目標分離音頻特征，對所述目標分離音頻特征進行特征映射處理，生成至少一個聲源分別對應的上下文初始音頻特征，根據所述上下文初始音頻特征以及所述通用分離音頻特征，生成所述至少一個聲源分別對應的上下文目標音頻特征，包括：

通過所述第一分離組件，對所述通用分離音頻特征進行特征提取處理，得到所述目標分離音頻特征，將所述目標分離音頻特征輸入至所述嵌入組件；

通過所述嵌入組件，對所述目標分離音頻特征進行特征映射處理，生成所述至少一個聲源分別對應的上下文初始音頻特征；

根據所述上下文初始音頻特征以及所述通用分離音頻特征，生成所述至少一個聲源分別對應的第一注意力分布參數；

根據所述第一注意力分布參數以及所述上下文初始音頻特征，生成所述上下文目標音頻特征。

3.根據權利要求2所述的方法，其特征在于，所述第一注意力網絡層包括第一注意力機制組件；

所述根據所述上下文初始音頻特征以及所述通用分離音頻特征，生成所述至少一個聲源分別對應的第一注意力分布參數，包括：

對所述通用分離音頻特征進行降維處理，得到期望分離音頻特征；

將所述上下文初始音頻特征以及所述期望分離音頻特征輸入至所述第一注意力機制組件；所述上下文初始音頻特征包括上下文初始音頻特征Y_j，所述至少一個聲源包括聲源S_j，其中，j為正整數，且j小于或等于所述至少一個聲源的聲源總數量；

在所述第一注意力機制組件中，根據所述上下文初始音頻特征Y_j以及所述期望分離音頻特征，生成所述聲源S_j對應的第一注意力分布參數C_j；