[發(fā)明專利]一種語音增強(qiáng)處理方法有效
| 申請?zhí)枺?/td> | 201811383558.7 | 申請日: | 2018-11-20 |
| 公開(公告)號: | CN109524020B | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計)人: | 張穎;肖萌萌;徐志京 | 申請(專利權(quán))人: | 上海海事大學(xué) |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208 |
| 代理公司: | 上海互順專利代理事務(wù)所(普通合伙) 31332 | 代理人: | 成秋麗 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 增強(qiáng) 處理 方法 | ||
本發(fā)明公開了一種語音增強(qiáng)處理方法,所述方法包括:基于語音數(shù)據(jù)與噪聲數(shù)據(jù)形成訓(xùn)練樣本;對所述訓(xùn)練樣本進(jìn)行預(yù)處理,得到處理后的去噪樣本;將所述去噪樣本進(jìn)行分為多個批次的去噪樣本,分別采用每一個批次的去噪樣本對WGAN模進(jìn)行訓(xùn)練,直至所述多個批次的去噪樣本訓(xùn)練完成,得到最終的WGAN?MBGD模型;采用最終的WGAN?MBGD模型輸出增強(qiáng)后的語音信號。應(yīng)用本發(fā)明的實(shí)施例,生成對抗網(wǎng)絡(luò)梯度不穩(wěn)定的情況,收斂速度更迅速,同時運(yùn)用小批量計算也降低了計算量,引入譜減因子和譜下限因子,通過減小頻譜間的誤差來減小殘留噪聲。
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種語音增強(qiáng)處理方法。
背景技術(shù)
近些年來,信息發(fā)展更為迅速,基于語音識別的人機(jī)交互系統(tǒng)更是成為研究主流,語音處理技術(shù)越來越多的應(yīng)用到各大系統(tǒng)中。然而,這些設(shè)備通常會處于比較復(fù)雜的聲學(xué)環(huán)境中,例如街道上的鳴笛聲、音樂聲、鳥叫聲、風(fēng)聲等等,嘈雜的背景噪音往往使語音質(zhì)量明顯變差,導(dǎo)致語音指令無法被準(zhǔn)確辨別,系統(tǒng)無法完成某種功能,極大的降低用戶體驗(yàn)等問題。因而研究語音增強(qiáng)是具有現(xiàn)實(shí)意義的課題。
語音增強(qiáng)的目的主要是從含噪語音中去除復(fù)雜的背景噪聲,并保證在語音信號不失真的條件下提升語音可懂度。由于語音信號是隨機(jī)變化,且是非平穩(wěn)的,因此處理起來相對困難。傳統(tǒng)的語音增強(qiáng)算法大多是基于噪聲估計,且處理的噪聲類型單一,并不能很好的處理復(fù)雜背景下的語音去噪問題。隨著神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,越來越多的神經(jīng)網(wǎng)絡(luò)模型也被應(yīng)用到語音增強(qiáng)算法中。例如基于深度神經(jīng)網(wǎng)絡(luò)(deep?neural?network,DNN)的語音增強(qiáng)模型的網(wǎng)絡(luò)層數(shù)較多,具有學(xué)習(xí)復(fù)雜的非線性函數(shù)能力,能夠提取輸入信號的高維數(shù)據(jù)信息,從而能有效處理不同類型下的噪聲,泛化能力較好。但由于需要提取大量的語音特征,且每層網(wǎng)絡(luò)節(jié)點(diǎn)的參數(shù)眾多,導(dǎo)致訓(xùn)練時間非常緩慢。而生成對抗網(wǎng)絡(luò)(generativeadversarial?nets,GAN)的出現(xiàn)已經(jīng)很好的解決了這個問題,GAN是一個端到端的網(wǎng)絡(luò)模型,可以直接使用原始音頻信息,從而極大的加快了網(wǎng)絡(luò)的訓(xùn)練速度。然而訓(xùn)練中會出現(xiàn)不穩(wěn)定的問題,導(dǎo)致生成器經(jīng)常會出現(xiàn)無意義的輸出。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種語音增強(qiáng)處理方法,旨在解決了生成對抗網(wǎng)絡(luò)梯度不穩(wěn)定的情況,收斂速度更迅速,同時運(yùn)用小批量計算也降低了計算量。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種語音增強(qiáng)處理方法,所述方法包括:
基于語音數(shù)據(jù)與噪聲數(shù)據(jù)形成訓(xùn)練樣本;
對所述訓(xùn)練樣本進(jìn)行預(yù)處理,得到處理后的去噪樣本;
將所述去噪樣本分為多個批次的去噪樣本,分別采用每一個批次的去噪樣本對WGAN模型進(jìn)行訓(xùn)練,直至所述多個批次的去噪樣本訓(xùn)練完成,得到最終的WGAN-MBGD模型;
采用最終的WGAN-MBGD模型輸出增強(qiáng)后的語音信號。
本發(fā)明的優(yōu)選實(shí)施方式中,所述將所述去噪樣本分為多個批次的去噪樣本,分別采用每一個批次的去噪樣本對WGAN模型進(jìn)行訓(xùn)練,直至所述多個批次的去噪樣本訓(xùn)練完成,得到最終的WGAN-MBGD模型的步驟,包括:
將所述去噪樣本分為多個批次;
基于GAN模型和所述去噪樣本,構(gòu)建Wasserstein距離函數(shù),最小化Wasserstein距離,得到WGAN模型、WGAN生成器loss函數(shù)和WGAN判別器loss函數(shù);針對每一批次去噪樣本執(zhí)行:對所述WGAN模型進(jìn)行訓(xùn)練,得到均方誤差、模型中的權(quán)值集合和偏置集合,其中,所述均方誤差是依據(jù)樣本輸入下的期望輸出和實(shí)際輸出所得到的均方誤差;
直至所述多個批次的去噪樣本訓(xùn)練完成,得到最終的WGAN-MBGD模型。
本發(fā)明的優(yōu)選實(shí)施方式中,所述基于語音數(shù)據(jù)與噪聲數(shù)據(jù)形成訓(xùn)練樣本的步驟,包括:
純凈語音數(shù)據(jù)與噪聲數(shù)據(jù)相疊加得到訓(xùn)練樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海海事大學(xué),未經(jīng)上海海事大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811383558.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





