[發明專利]一種人聲分離方法及系統有效
| 申請號: | 201911360803.7 | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN110992966B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 黃明飛;姚宏貴;郝瀚 | 申請(專利權)人: | 開放智能機器(上海)有限公司 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L21/0232;G10L21/0272;G10L25/03;G10L25/30;G10L25/45 |
| 代理公司: | 上海申新律師事務所 31272 | 代理人: | 吳軼淳 |
| 地址: | 200233 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人聲 分離 方法 系統 | ||
1.一種人聲分離方法,其特征在于,預先將經過混合的混合語音數據作為訓練數據訓練生成一遞歸神經網絡模型,所述混合語音數據中包括多路語音數據,所述語音數據中包括至少一路人聲數據以及至少一路噪聲數據,所述遞歸神經網絡模型用于分別識別所述人聲數據和所述噪聲數據,還包括以下步驟:
步驟S1,獲取外部輸入的需要進行分離的原始音頻數據,所述原始音頻數據中混合有至少一路所述人聲數據和至少一路所述噪聲數據;
步驟S2,采用一特征提取模型對所述原始音頻數據進行特征提取,得到特征系數,所述特征系數為22維的BFCC系數;
步驟S3,將所述特征系數導入所述遞歸神經網絡模型進行處理,得到分別與所述人聲數據和每一路所述噪聲數據一一對應的多個處理結果;
步驟S4,采用一特征還原模型分別對每個所述處理結果進行特征還原,得到分離后的所述人聲數據和每一路所述噪聲數據;
所述遞歸神經網絡模型包括一第一門控循環單元、多個第二門控循環單元以及多個全連接單元,所述第二門控循環單元和所述全連接單元一一對應,每個所述第二門控循環單元分別唯一對應于一路所述語音數據;
所述第一門控循環單元的輸入端作為所述遞歸神經網絡的輸入端;
每個所述第二門控循環單元的輸入端分別連接所述第一門控循環單元的輸出端,每個所述第二門控循環單元的輸出端分別連接對應的所述全連接單元的輸入端,每個所述全連接單元的輸出端作為所述遞歸神經網絡模型的輸出端;
則所述步驟S3進一步包括:
步驟S31,所述第一門控循環單元根據輸入的所述原始音頻數據的所述特征系數,處理得到22維的第一特征數據;
步驟S32,將所述第一門控循環單元輸出的所述第一特征數據與所述特征系數進行特征拼接得到第二特征數據,隨后將所述第二特征數據分別輸入多個不同的第二門控循環單元進行處理;
步驟S33,每個所述第二門控循環單元對所述第二特征數據進行處理后分別向對應的所述全連接單元輸出一44維的第三特征數據;
步驟S34,每個所述全連接單元根據所述第三特征數據處理得到一對應的處理結果并輸出,隨后轉向所述步驟S4,所有所述處理結果均為22維。
2.根據權利要求1所述的人聲分離方法,其特征在于,所述訓練數據中的輸入數據為所述混合語音數據的特征系數,所述訓練數據中的預期輸出數據為混合之前的純凈人聲數據以及純凈噪聲數據。
3.根據權利要求1所述的人聲分離方法,其特征在于,所述步驟S2進一步包括:
步驟S21,將所述原始音頻數據采用重疊窗的方式分割成多個短時音頻;
步驟S22,對每個所述短時音頻進行傅里葉變換和BARK頻率的轉換,得到所述特征系數。
4.根據權利要求1所述的人聲分離方法,其特征在于,所述步驟S4進一步包括:
步驟S41,對每個所述處理結果進行逆傅里葉變換,得到對應的中間結果;
步驟S42,通過重疊加窗的方式對每個所述中間結果進行還原,分別還原得到每一路所述語音數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于開放智能機器(上海)有限公司,未經開放智能機器(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911360803.7/1.html,轉載請聲明來源鉆瓜專利網。





