[發(fā)明專利]基于生成對(duì)抗網(wǎng)絡(luò)的深度特征的語音去混響方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910140461.1 | 申請(qǐng)日: | 2019-02-23 |
| 公開(公告)號(hào): | CN109887489B | 公開(公告)日: | 2021-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 王龍標(biāo);李楠;黨建武 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/08;G10L15/14;G10L15/16;G10L15/26;G10L19/04;G10L21/0208;G10L25/24 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 生成 對(duì)抗 網(wǎng)絡(luò) 深度 特征 語音 混響 方法 | ||
本發(fā)明公開一種基于生成對(duì)抗網(wǎng)絡(luò)的深度特征的語音去混響方法,該方法主要步驟為:首先對(duì)語音進(jìn)行加權(quán)預(yù)測(cè)誤差WPE進(jìn)行信號(hào)的預(yù)處理;其次數(shù)據(jù)的特征提?。簩?duì)語音數(shù)據(jù)進(jìn)行MFCC特征提取以及不含混響語音的針對(duì)音素的瓶頸特征BNF提取;然后WPE的語音信號(hào)預(yù)處理:構(gòu)建生成對(duì)抗網(wǎng)絡(luò),另含混響語音的MFCC特征通過生成對(duì)抗網(wǎng)絡(luò)映射到干凈語音的深度特征;最后通過Kaldi工具箱,使用傳統(tǒng)的GMM?HMM進(jìn)行強(qiáng)制對(duì)齊,然后利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)模型的訓(xùn)練以及解碼。本發(fā)明通過結(jié)合信號(hào)處理的方法以及基于生成對(duì)抗網(wǎng)絡(luò)的深度學(xué)習(xí)框架,使得該系統(tǒng)得以結(jié)合兩者各自的優(yōu)勢(shì)產(chǎn)生一個(gè)更好的語音去混響效果。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號(hào)處理領(lǐng)域,特別是針對(duì)遠(yuǎn)場(chǎng)語音識(shí)別中由于環(huán)境的混響所引起的 識(shí)別性能下降的問題,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的深度特征的語音去混響方法。
背景技術(shù)
近年來,智能家居、對(duì)話機(jī)器人、智能音響等新興產(chǎn)業(yè)蓬勃發(fā)展,給人們的生活方式以 及人和機(jī)器的交互方式產(chǎn)生了極大的變化,語音交互作為一個(gè)新的交互方式在這些新興領(lǐng)域 中得到了廣泛的應(yīng)用。隨著深度學(xué)習(xí)應(yīng)用在語音識(shí)別中,識(shí)別性能得到了很大的提高,識(shí)別 率已經(jīng)超過95%,識(shí)別效果基本上已經(jīng)能達(dá)到了人的聽覺水平。但是以上這些僅限于在近場(chǎng) 的條件下,噪聲和房間所產(chǎn)生的混響非常小,怎樣在復(fù)雜場(chǎng)景下(噪聲很多或者混響很大) 達(dá)到一個(gè)很好的識(shí)別效果成為極為重要的用戶體驗(yàn)。
語音的去混響是遠(yuǎn)場(chǎng)語音識(shí)別中的一個(gè)主要的研究方向。在一個(gè)房間內(nèi),混響語音可以 表示為干凈語音信號(hào)和房間沖擊響應(yīng)(RIR)的卷積,所以含混響的語音會(huì)受到同一句話中的 之前的語音信息的干擾?;祉憰?huì)包括早期混響和晚期混響,早期混響會(huì)對(duì)語音識(shí)別的效果帶 來一定的提升,但是晚期混響會(huì)使語音識(shí)別的識(shí)別效果下降。因此,如果能有效地抑制或減 少晚期混響,將會(huì)得到一個(gè)良好的語音識(shí)別效果。
現(xiàn)有的研究分為兩種:一種是使用信號(hào)處理的方法來進(jìn)行語音去混響如加權(quán)預(yù)測(cè)誤差 (WPE)的方法;另一種是使用深度學(xué)習(xí)的方法來進(jìn)行語音去混響如利用深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行 語音的去混響。目前神經(jīng)網(wǎng)絡(luò)方法雖然能夠建立一個(gè)良好的非線性映射,但是僅僅使用全連 接的神經(jīng)網(wǎng)絡(luò),效果很難達(dá)到我們所預(yù)期的效果,其次就是使用最基本的特征映射方法并不 能很好的學(xué)習(xí)到語音的語義信息,構(gòu)建一個(gè)好的網(wǎng)絡(luò)結(jié)構(gòu)以及研究語音的深層次的語義信息 對(duì)于語音識(shí)別將產(chǎn)生一個(gè)好的識(shí)別性能的提升,對(duì)復(fù)雜場(chǎng)景下的語音識(shí)別有著現(xiàn)實(shí)意義。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的深度特征的語音 去混響方法。
本發(fā)明提出一種結(jié)合信號(hào)處理和神經(jīng)網(wǎng)絡(luò)的深度特征映射的語音去混響方法。技術(shù)方案 以Reverb Challenge比賽的數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象。主要涉及四個(gè)方面:1)對(duì)語音進(jìn)行加權(quán) 預(yù)測(cè)誤差(WPE)進(jìn)行信號(hào)的預(yù)處理;2)對(duì)語音信號(hào)進(jìn)行MFCC特征提取以及不含混響語音的 針對(duì)音素的瓶頸特征(BNF)提?。?)構(gòu)建生成對(duì)抗網(wǎng)絡(luò),另含混響語音(WPE處理后)的 MFCC特征通過生成對(duì)抗網(wǎng)絡(luò)映射到干凈語音的深度特征;4)通過Kaldi工具箱,使用傳統(tǒng) 的GMM-HMM進(jìn)行強(qiáng)制對(duì)齊,然后利用深度神經(jīng)網(wǎng)絡(luò)(DNNs)進(jìn)行聲學(xué)模型的訓(xùn)練以及解碼。 具體步驟如下:
1)加權(quán)預(yù)測(cè)誤差(WPE)語音信號(hào)預(yù)處理
這部分,我們對(duì)WPE的方法在本發(fā)明中的實(shí)施方案進(jìn)行了一個(gè)簡要的介紹,WPE的方法 用來估計(jì)和去除單通道語音中的晚期混響,混響語音信號(hào)Y可以分解為干凈語音成分D混響 成分L,
Y(t,f)=D(t,f)+L(t,f) (1)
L可以通過先前若干點(diǎn)的Y加權(quán)確定,G表示權(quán)重系數(shù);WPE算法的核心問題是確定G, 然后估計(jì)出混響消除后的語音。
2)MFCC特征提取以及瓶頸特征(BNF)提取
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910140461.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





