[發(fā)明專利]基于人聲模型的單通道聲音分離方法有效
| 申請?zhí)枺?/td> | 201611237076.1 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106653048B | 公開(公告)日: | 2019-10-15 |
| 發(fā)明(設(shè)計)人: | 曹裕行 | 申請(專利權(quán))人: | 云知聲(上海)智能科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272 |
| 代理公司: | 上海唯源專利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 200233 上海市徐*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人聲 模型 通道 聲音 分離 方法 | ||
本發(fā)明涉及一種基于人聲模型的單通道聲音分離方法,包括如下步驟:利用源濾波器模型建立人聲模型,所建立的人聲模型包括聲帶振動功率模型和聲道口腔的濾波濾波器模型;提供輸入信號;利用所述聲帶振動功率模型和所述聲道口腔的濾波濾波器模型構(gòu)建所述輸入信號的人聲功率;構(gòu)建所述輸入信號的背景聲功率;依據(jù)所構(gòu)建的人聲功率和背景聲功率對所述輸入信號重建信號功率譜;以及求解重建的信號功率譜中的人聲功率和背景聲功率,并根據(jù)所求解得到的人聲功率和背景聲功率從所述輸入信號中分離出人聲信號和背景聲信號。本發(fā)明的單通道聲音分離方法可以在極端嘈雜的情況下分離出人聲和背景聲,可以用于語音增強和人聲提取等領(lǐng)域,實用性較強。
技術(shù)領(lǐng)域
本發(fā)明涉及聲音分離技術(shù)領(lǐng)域,特指一種基于人聲模型的單通道聲音分離方法。
背景技術(shù)
語噪分離(Speech and noise separation)是為了實現(xiàn)在復(fù)雜噪聲環(huán)境中分離出目標說話語音而對帶噪語音所做的處理,其中主要目標是消除環(huán)境噪聲對語音的干擾,提高語音質(zhì)量。語噪分離可以說是語音增強(Speech Enhancement)算法的一種擴展,其處理的噪聲甚至可以包括其他說話人語音。
隨著計算機信號處理技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,單通道聲音分離技術(shù)越來越受人們重視,其可以用于語音增強、人聲提取等領(lǐng)域。該單通道聲音分離技術(shù)在很多系數(shù)都會用到,比如KTV系統(tǒng)中音樂伴奏的獲得,KTV系統(tǒng)歌唱水平打分中人聲的獲得,音樂推薦系統(tǒng)中利用歌唱者聲音特質(zhì)來推薦音樂等,為了保證系數(shù)有較好的性能,必須得到較為純凈的伴奏或者人聲,由于現(xiàn)實中音樂信號大部分是單通道音樂信號,所以單通道音樂人聲分離技術(shù)在這些系統(tǒng)中能夠得到廣泛的應(yīng)用。然而,現(xiàn)在針對單通道聲音分離技術(shù)還遠遠不能達到人耳系統(tǒng)的性能,因此對于單通道聲音分離技術(shù)提出一種新的分離方法顯得尤為重要。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種基于人聲模型的單通道聲音分離方法,解決現(xiàn)有分離技術(shù)不能達到人耳系統(tǒng)的性能問題。
實現(xiàn)上述目的的技術(shù)方案是:
本發(fā)明提供了一種基于人聲模型的單通道聲音分離方法,包括如下步驟:
利用源濾波器模型建立人聲模型,所建立的人聲模型包括聲帶振動功率模型和聲道口腔的濾波濾波器模型;
提供輸入信號;
利用所述聲帶振動功率模型和所述聲道口腔的濾波濾波器模型構(gòu)建所述輸入信號的人聲功率;
構(gòu)建所述輸入信號的背景聲功率;
依據(jù)所構(gòu)建的人聲功率和背景聲功率對所述輸入信號重建信號功率譜;以及
求解重建的信號功率譜中的人聲功率和背景聲功率,并根據(jù)所求解得到的人聲功率和背景聲功率從所述輸入信號中分離出人聲信號和背景聲信號。
本發(fā)明的單通道聲音分離方法可以在極端嘈雜的情況下分離出人聲和背景聲,其分離出的信號能夠達到人耳聽覺系統(tǒng)的要求,本發(fā)明的分離方法采用源濾波器模型,將人的發(fā)聲簡化為聲帶振動和聲道口腔的濾波的卷積,再針對兩者進行建模,根據(jù)所建立的模型構(gòu)建出輸入信號的人聲功率和背景聲功率,再通過重建輸入信號的信號功率譜,求解出人聲功率和背景聲功率,從而很好的將人聲和背景聲從輸入信號中分離。本發(fā)明的單通道聲音分離方法可以用于語音增強,比如電話會議、人機交互等,還可以用于人聲提取,比如從單通道的音樂信號中提取出人聲和伴奏帶,實用性較強。
本發(fā)明基于人聲模型的單通道聲音分離方法的進一步改進在于,利用源濾波器模型建立人聲模型,包括:
基于源濾波器模型將人聲簡化為聲帶振動e和聲道口腔的濾波g的卷積;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云知聲(上海)智能科技有限公司,未經(jīng)云知聲(上海)智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611237076.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





