[發明專利]音頻處理方法及裝置、終端及存儲介質有效
| 申請號: | 202110309769.1 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113113044B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 徐娜;王林章;賈永濤 | 申請(專利權)人: | 北京小米松果電子有限公司;昆山杜克大學 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/51;G10L21/0272 |
| 代理公司: | 北京善任知識產權代理有限公司 11650 | 代理人: | 張振偉 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 終端 存儲 介質 | ||
1.一種音頻處理方法,其特征在于,包括:
確定目標對象的第一聲紋特征;
對混合音頻進行預分離處理,獲得多路語音信號;
根據所述第一聲紋特征和所述多路語音信號,確定所述混合音頻中與所述目標對象匹配的目標音頻;
其中,所述根據所述第一聲紋特征和所述多路語音信號,確定所述混合音頻中與所述目標對象匹配的目標音頻,包括:
確定所述多路語音信號中各語音信號的第二聲紋特征;
將各所述語音信號的第二聲紋特征以及所述第一聲紋特征進行拼接,獲得第三聲紋特征;
將所述第三聲紋特征輸入預定的語音分離網絡模型,確定所述混合音頻中與所述目標對象匹配的目標音頻。
2.根據權利要求1所述的方法,其特征在于,所述將所述第三聲紋特征輸入預定的語音分離網絡模型,確定所述混合音頻中與所述目標對象匹配的目標音頻,包括:
將所述第三聲紋特征輸入所述預定的語音分離網絡模型的各子模塊,得到各子模塊的輸出結果;
根據所述各子模塊的輸出結果串聯的總輸出結果,確定所述混合音頻中與所述目標對象匹配的目標音頻。
3.根據權利要求2所述的方法,其特征在于,所述子模塊包括:多層長短期記憶網絡LSTM和全連接層。
4.根據權利要求1所述的方法,其特征在于,所述確定目標對象的第一聲紋特征,包括:
獲取所述目標對象的音頻信號;
根據所述音頻信號的頻譜,提取所述目標對象的第一聲紋特征。
5.根據權利要求4所述的方法,其特征在于,所述根據所述音頻信號的頻譜,提取所述目標對象的第一聲紋特征,包括:
將所述音頻信號的頻譜輸入預定的聲紋提取網絡模型,獲取所述目標對象的第一聲紋特征。
6.根據權利要求5所述的方法,其特征在于,所述聲紋提取網絡模型包括:
殘差網絡RESNET;
至少一層池化層,與所述RESNET連接;
全連接層,與所述池化層連接。
7.根據權利要求1所述的方法,其特征在于,所述對混合音頻進行預分離處理,獲得多路語音信號,包括:
對所述混合音頻采用獨立向量分析IVA方式進行預分離處理,獲得所述多路語音信號。
8.根據權利要求1至7中任一所述的方法,其特征在于,所述混合音頻是語音通話過程中采集到的;
所述方法還包括:
對所述語音分離后的所述目標音頻進行降噪處理,輸出增強后的所述目標音頻。
9.一種音頻處理裝置,其特征在于,包括:
確定模塊,配置為確定目標對象的第一聲紋特征;
預分離模塊,配置為對混合音頻進行預分離處理,獲得多路語音信號;
提取模塊,配置為確定所述多路語音信號中各語音信號的第二聲紋特征;將各所述語音信號的第二聲紋特征以及所述第一聲紋特征進行拼接,獲得第三聲紋特征;將所述第三聲紋特征輸入預定的語音分離網絡模型,確定所述混合音頻中與所述目標對象匹配的目標音頻。
10.根據權利要求9所述的裝置,其特征在于,
所述提取模塊,還配置為將所述第三聲紋特征輸入所述預定的語音分離網絡模型的各子模塊,得到各子模塊的輸出結果;根據所述各子模塊的輸出結果串聯的總輸出結果,確定所述混合音頻中與所述目標對象匹配的目標音頻。
11.根據權利要求10所述的裝置,其特征在于,所述子模塊包括:多層長短期記憶網絡LSTM和全連接層。
12.根據權利要求9所述的裝置,其特征在于,
所述確定模塊,還配置為獲取所述目標對象的音頻信號;根據所述音頻信號的頻譜,提取所述目標對象的第一聲紋特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司;昆山杜克大學,未經北京小米松果電子有限公司;昆山杜克大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110309769.1/1.html,轉載請聲明來源鉆瓜專利網。





