[發明專利]人聲和伴奏分離方法及相關產品有效

申請號：	202010027976.3	申請日：	2020-01-10
公開（公告）號：	CN111192594B	公開（公告）日：	2022-12-09
發明（設計）人：	莊曉濱;林森	申請（專利權）人：	騰訊音樂娛樂科技（深圳）有限公司
主分類號：	G10L19/02	分類號：	G10L19/02;G10L25/30;G10L25/48
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	熊永強;杜維
地址：	518000 廣東省深圳市***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	人聲伴奏分離方法相關產品
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種人聲和伴奏分離方法，其特征在于，包括：

對混合音頻進行傅里葉變換，得到所述混合音頻的第一頻譜圖，所述混合音頻為單聲道音頻，所述混合音頻是由人聲和伴奏進行混合得到的；

將所述第一頻譜圖輸入到神經網絡，得到所述人聲對應的第二頻譜圖以及所述伴奏對應的第三頻譜圖；具體包括：通過所述神經網絡確定所述第一頻譜圖中各個頻點對應的幅值中所述人聲所占的比例以及所述伴奏所占的比例；根據所述人聲所占的比例對所述第一頻譜圖進行分離，得到所述人聲對應的第二頻譜圖，根據所述伴奏所占的比例對所述第一頻譜圖進行分離，得到所述伴奏對應的第三頻譜圖；

根據所述第一頻譜圖對所述第二頻譜圖進行傅里葉反變換，得到所述人聲；以及根據所述第一頻譜圖對所述第三頻譜圖進行傅里葉反變換，得到所述伴奏。

2.根據權利要求1所述的方法，其特征在于，在對混合音頻進行傅里葉變換之前，所述方法還包括：

根據混合音頻的響度確定第一比例；

根據所述第一比例對所述混合音頻進行縮放，得到縮放后的所述混合音頻；

所述對混合音頻進行傅里葉變換，得到所述混合音頻的第一頻譜圖，包括：

對縮放后的所述混合音頻進行傅里葉變換，得到所述混合音頻的第一頻譜圖。

3.根據權利要求2所述的方法，其特征在于，所述根據所述第一頻譜圖對所述第二頻譜圖進行傅里葉反變換，得到所述人聲，包括：

根據所述第一頻譜圖確定所述混合音頻在頻域上的相位信息；

根據所述相位信息對所述第二頻譜圖進行傅里葉反變換，得到與所述第二頻譜圖對應的第一音頻；

按照第二比例對所述第一音頻進行縮放，得到所述人聲，其中，所述第一比例和所述第二比例為倒數關系。

4.根據權利要求2或3所述的方法，其特征在于，所述根據所述第一頻譜圖對所述第三頻譜圖進行傅里葉反變換，得到所述伴奏，包括：

根據所述第一頻譜圖確定所述混合音頻在頻域上的相位信息；

根據所述相位信息對所述第三頻譜圖進行傅里葉反變換，得到與所述第三頻譜圖對應的第二音頻；

按照第二比例對所述第二音頻進行縮放，得到所述伴奏，其中，所述第一比例和所述第二比例為倒數關系。

5.根據權利要求1所述的方法，其特征在于，在對混合音頻進行傅里葉變換之前，所述方法還包括：

獲取預設采樣頻率下的N個伴奏樣本和M個人聲樣本；

分別對所述N個伴奏樣本和所述M個人聲樣本進行擴充處理，得到X個伴奏樣本和Y個人聲樣本，所述擴充處理包括變調和/或變速；

分別對所述X個伴奏樣本和所述Y個人聲樣本進行縮放處理，得到縮放后的所述X個伴奏樣本和縮放后的所述Y個人聲樣本；

對縮放后的所述X個伴奏樣本和縮放后的所述Y個人聲樣本進行隨機混合，得到訓練數據集；

使用所述訓練數據進行模型訓練，得到所述神經網絡。

6.根據權利要求1所述的方法，其特征在于，所述通過所述神經網絡確定所述第一頻譜圖中各個頻點對應的幅值中所述人聲所占的比例以及所述伴奏所占的比例，包括：

使用所述神經網絡對所述第一頻譜圖進行處理，以增強所述第一頻譜圖中所述人聲的諧波特性，得到第一處理結果；

使用所述神經網絡對所述第一處理結果進行處理，得到第二處理結果；

使用所述神經網絡對所述第二處理結果進行處理，以增強所述第二處理結果中所述人聲的連續性，得到第三處理結果；

使用所述神經網絡對所述第三處理結果進行處理，得到第四處理結果；

根據所述第四處理結果得到所述第一頻譜圖中各個頻點所對應的幅值中所述人聲所占的比例以及所述伴奏所占的比例。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技（深圳）有限公司，未經騰訊音樂娛樂科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010027976.3/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析，例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預測技術
G10L19-06 ..例如短期預測系數的頻譜特征的確定或編碼
G10L19-08 ..激勵函數的確定或編碼；長期預測參數的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件，例如增益編碼、后置濾波設計或聲碼器結構

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】