[發(fā)明專(zhuān)利]一種基于膨脹因果卷積的語(yǔ)音降噪方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010324373.X | 申請(qǐng)日: | 2020-04-23 |
| 公開(kāi)(公告)號(hào): | CN111524530A | 公開(kāi)(公告)日: | 2020-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 陳陽(yáng);劉慶云;吳慶婕 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣州清音智能科技有限公司 |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L25/30 |
| 代理公司: | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 王澤云 |
| 地址: | 510000 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 膨脹 因果 卷積 語(yǔ)音 方法 | ||
1.一種基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述方法包括以下步驟:
S1構(gòu)建網(wǎng)絡(luò)訓(xùn)練的音頻訓(xùn)練集;
S2基于膨脹因果卷積,構(gòu)建語(yǔ)音降噪網(wǎng)絡(luò)模型并訓(xùn)練網(wǎng)絡(luò)模型;
S3使用訓(xùn)練后的模型進(jìn)行降噪。
2.如權(quán)利要求1所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述步驟S1中音頻訓(xùn)練集包括以下音頻數(shù)據(jù):帶噪音頻數(shù)據(jù)以及與帶噪音頻數(shù)據(jù)對(duì)應(yīng)的用于監(jiān)督的純凈音頻數(shù)據(jù);所述音頻數(shù)據(jù)的構(gòu)建方法為:
S11采集純凈的音頻信號(hào)和噪聲信號(hào);
S12將純凈的語(yǔ)音音頻信號(hào)和噪聲信號(hào)混合,得到帶噪聲的語(yǔ)音音頻信號(hào)。
3.如權(quán)利要求1所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述步驟S2中語(yǔ)音降噪網(wǎng)絡(luò)模型的構(gòu)建具體包括:
S21基于膨脹因果卷積,設(shè)計(jì)卷積層;
S22通過(guò)門(mén)激活單元替代深度神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的單一激活函數(shù),進(jìn)行非線性轉(zhuǎn)換;
S23將多個(gè)膨脹卷積模塊組成網(wǎng)絡(luò)隱含層,其中,每個(gè)膨脹卷積模塊由膨脹卷積層、門(mén)激活單元和1*1卷積層組成;在膨脹卷積模塊中,數(shù)據(jù)進(jìn)行膨脹卷積后經(jīng)過(guò)門(mén)單元激活,最后1*1的卷積核完成維度的調(diào)整;
S24每個(gè)膨脹卷積模塊的輸出加和后輸入到輸出層中,經(jīng)過(guò)RuLU函數(shù)的激活,以及softmax的運(yùn)算,得到預(yù)測(cè)概率,預(yù)測(cè)概率最大的即為預(yù)測(cè)值。
4.如權(quán)利要求1所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述步驟S3具體包括:
S31對(duì)待處理的音頻信息進(jìn)行預(yù)處理;
S32預(yù)處理后的音頻信息通過(guò)模型的運(yùn)算,得到降噪后的音頻信息。
5.如權(quán)利要求2所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述純凈的音頻信號(hào)采集于TIMIT數(shù)據(jù)庫(kù)以及與錄音室中錄制的純凈不帶噪聲的語(yǔ)音音頻信號(hào),噪聲信號(hào)同樣采集于TIMIT數(shù)據(jù)庫(kù)以及錄制的噪聲音頻信號(hào)。
6.如權(quán)利要求2所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述純凈的語(yǔ)音音頻信號(hào)和噪聲信號(hào)混合的合成方法包括單噪聲合成和多噪聲合成。
7.如權(quán)利要求3所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述每個(gè)膨脹卷積模塊運(yùn)用了殘差學(xué)習(xí),且每個(gè)膨脹卷積模塊將處理完后的數(shù)據(jù)輸送到下一膨脹卷積模塊。
8.如權(quán)利要求3所述的基于膨脹因果卷積的語(yǔ)音降噪方法,其特征在于,所述預(yù)測(cè)值與純凈音頻信號(hào)中對(duì)應(yīng)的監(jiān)督值計(jì)算交叉熵,更新網(wǎng)絡(luò)的參數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣州清音智能科技有限公司,未經(jīng)廣州清音智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010324373.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 基于行為時(shí)間序列的社交網(wǎng)絡(luò)因果關(guān)系發(fā)現(xiàn)算法
- 一種自底向上的高維數(shù)據(jù)因果網(wǎng)絡(luò)學(xué)習(xí)方法
- 情態(tài)生成裝置以及計(jì)算機(jī)可讀取記錄介質(zhì)
- 對(duì)短文本進(jìn)行常識(shí)性因果推理的方法
- 一種基于動(dòng)量動(dòng)力學(xué)模型的行人間因果關(guān)系識(shí)別方法
- 因果句解析裝置、因果句解析系統(tǒng)、程序以及因果句解析方法
- 訂單歸因方法及裝置
- 一種基于因果推理對(duì)玻璃熔爐環(huán)境控制的方法及系統(tǒng)
- 一種結(jié)合知識(shí)圖譜和自動(dòng)變分編碼的因果發(fā)現(xiàn)方法
- 一種基于弱證據(jù)聚合的常識(shí)因果推理方法及系統(tǒng)
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





