[發(fā)明專利]一種人聲分離方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911360803.7 | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN110992966B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 黃明飛;姚宏貴;郝瀚 | 申請(專利權(quán))人: | 開放智能機器(上海)有限公司 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L21/0232;G10L21/0272;G10L25/03;G10L25/30;G10L25/45 |
| 代理公司: | 上海申新律師事務(wù)所 31272 | 代理人: | 吳軼淳 |
| 地址: | 200233 上海市徐匯區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 人聲 分離 方法 系統(tǒng) | ||
本發(fā)明公開了一種人聲分離方法及系統(tǒng),屬于語噪分離技術(shù)領(lǐng)域,方法包括:步驟S1,獲取外部輸入的需要進行分離的原始音頻數(shù)據(jù);步驟S2,采用一特征提取模型對原始音頻數(shù)據(jù)進行特征提取;步驟S3,將特征系數(shù)導(dǎo)入遞歸神經(jīng)網(wǎng)絡(luò)模型進行處理,步驟S4,采用一特征還原模型分別對每個處理結(jié)果進行特征還原;系統(tǒng)包括:采集模塊,特征提取模塊,神經(jīng)網(wǎng)絡(luò)模塊,特征還原模塊;有益效果是:不依賴于任何假設(shè),抗干擾能力強,只需要事先準(zhǔn)備需要分離的若干純凈的人聲數(shù)據(jù)和噪聲數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),訓(xùn)練生成一遞歸神經(jīng)網(wǎng)絡(luò)模型,便可以實現(xiàn)人聲分離,且該方法不僅可以分離出人聲,還可以分離出人聲中混合的噪聲源。
技術(shù)領(lǐng)域
本發(fā)明涉及語噪分離技術(shù)領(lǐng)域,尤其涉及一種人聲分離方法及系統(tǒng)。
背景技術(shù)
人聲分離是指在復(fù)雜噪聲環(huán)境中為分離出目標(biāo)說話人的語音而對混合語音進行處理,傳統(tǒng)的人聲分離主要是基于傳統(tǒng)人聲分離算法,例如:最小均方誤差(LMS)算法,最小二乘法(LS)等,這些算法依賴于很多假設(shè),具有較大的局限性,例如源信號相互獨立等。由于實際的應(yīng)用場景比較復(fù)雜使得這些假設(shè)難以同時被滿足,這將導(dǎo)致傳統(tǒng)的人聲分離算法可能只在某種特定的應(yīng)用場景下才會有效果,傳統(tǒng)算法在抗干擾能力上表現(xiàn)的較差。
發(fā)明內(nèi)容
根據(jù)現(xiàn)有技術(shù)中存在的上述問題,現(xiàn)提供一種人聲分離方法及系統(tǒng),該方法基于人工智能深度學(xué)習(xí),不依賴于任何假設(shè),只需要事先準(zhǔn)備需要分離的若干純凈的人聲數(shù)據(jù)和噪聲數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),訓(xùn)練生成一遞歸神經(jīng)網(wǎng)絡(luò)模型,便可以實現(xiàn)人聲分離,且該方法不僅可以分離出人聲,還可以分離出人聲中混合的噪聲源。
上述技術(shù)方案具體包括:
一種人聲分離方法,其特征在于,預(yù)先將經(jīng)過混合的混合語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練生成一遞歸神經(jīng)網(wǎng)絡(luò)模型,所述混合語音數(shù)據(jù)中包括多路語音數(shù)據(jù),所述語音數(shù)據(jù)中包括至少一路人聲數(shù)據(jù)以及至少一路噪聲數(shù)據(jù),所述遞歸神經(jīng)網(wǎng)絡(luò)模型用于分別識別所述人聲數(shù)據(jù)和所述噪聲數(shù)據(jù),還包括以下步驟:
步驟S1,獲取外部輸入的需要進行分離的原始音頻數(shù)據(jù),所述原始音頻數(shù)據(jù)中混合有至少一路所述人聲數(shù)據(jù)和至少一路所述噪聲數(shù)據(jù);
步驟S2,采用一特征提取模型對所述原始音頻數(shù)據(jù)進行特征提取,得到特征系數(shù),所述特征系數(shù)為22維的BFCC系數(shù);
步驟S3,將所述特征系數(shù)導(dǎo)入所述遞歸神經(jīng)網(wǎng)絡(luò)模型進行處理,得到分別與所述人聲數(shù)據(jù)和每一路所述噪聲數(shù)據(jù)一一對應(yīng)的多個處理結(jié)果;
步驟S4,采用一特征還原模型分別對每個所述處理結(jié)果進行特征還原,得到分離后的所述人聲數(shù)據(jù)和每一路所述噪聲數(shù)據(jù)。
優(yōu)選地,其中,所述訓(xùn)練數(shù)據(jù)中的輸入數(shù)據(jù)為所述混合語音數(shù)據(jù)的特征系數(shù),所述訓(xùn)練數(shù)據(jù)中的預(yù)期輸出數(shù)據(jù)為混合之前的純凈人聲數(shù)據(jù)以及純凈噪聲數(shù)據(jù)。
優(yōu)選地,其中,所述步驟S2進一步包括:
步驟S21,將所述原始音頻數(shù)據(jù)采用重疊窗的方式分割成多個短時音頻;
步驟S22,對每個所述短時音頻進行傅里葉變換和BARK頻率的轉(zhuǎn)換,得到所述特征系數(shù)。
優(yōu)選地,其中,所述遞歸神經(jīng)網(wǎng)絡(luò)模型包括一第一門控循環(huán)單元、多個第二門控循環(huán)單元以及多個全連接單元,所述第二門控循環(huán)單元和所述全連接單元一一對應(yīng),每個所述第二門控循環(huán)單元分別唯一對應(yīng)于一路所述語音數(shù)據(jù);
所述第一門控循環(huán)單元的輸入端作為所述遞歸神經(jīng)網(wǎng)絡(luò)的輸入端;
每個所述第二門控循環(huán)單元的輸入端分別連接所述第一門控循環(huán)單元的輸出端,每個所述第二門控循環(huán)單元的輸出端分別連接對應(yīng)的所述全連接單元的輸入端,每個所述全連接單元的輸出端作為所述遞歸神經(jīng)網(wǎng)絡(luò)模型的輸出端;
則所述步驟S3進一步包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于開放智能機器(上海)有限公司,未經(jīng)開放智能機器(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911360803.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





