[發(fā)明專利]一種基于DNN噪聲分類的語音增強(qiáng)方法在審
| 申請?zhí)枺?/td> | 201811587392.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109559755A | 公開(公告)日: | 2019-04-02 |
| 發(fā)明(設(shè)計(jì))人: | 高天寒;陳爽 | 申請(專利權(quán))人: | 沈陽品尚科技有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30;G10L25/24;G10L15/16;G10L15/06;G10L25/18 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110006 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 梅爾 語音增強(qiáng) 噪聲分類 濾波能量 特征向量 語音信號 濾波 噪聲 快速傅里葉變換 離散余弦變換 神經(jīng)網(wǎng)絡(luò)模型 語音識別技術(shù) 濾波器 預(yù)處理 倒譜參數(shù) 非語音段 客觀測試 濾波器組 頻率響應(yīng) 頻譜能量 神經(jīng)網(wǎng)絡(luò) 噪聲信號 分類 頻譜 譜線 向量 語音 主觀 | ||
1.一種基于DNN噪聲分類的語音增強(qiáng)方法,其特征在于:包括以下步驟:
步驟1、通過均值、標(biāo)準(zhǔn)化和預(yù)加重,分幀加窗這些方法對噪聲信號進(jìn)行預(yù)處理,在語音處理系統(tǒng)的語音活動檢測模塊中加窗確定非語音段信號;然后對每幀語音信號進(jìn)行快速傅里葉變換并計(jì)算譜線能量;使語音信號的頻譜通過梅爾濾波器組,用頻譜能量乘以梅爾濾波器的頻率響應(yīng)Hm(k)來獲得梅爾濾波能量,如下公式所示:
其中,s(m)為梅爾濾波能量,Xa(k)為輸入語音離散余弦變換值,k為濾波器個(gè)數(shù),N表示傅里葉變換點(diǎn)數(shù),m表示當(dāng)前幀,M表示該語音中包含的所有幀數(shù);
然后對每幀信號的梅爾濾波能量的對數(shù)進(jìn)行離散余弦變換,得到梅爾倒譜參數(shù),將其作為語音每幀的梅爾濾波的特征向量,如下公式所示:
其中,C(n)為每幀信號的梅爾倒譜參數(shù),n表示進(jìn)行離散余弦變換的每幀信號,L表示該語音中包含的進(jìn)行離線變換的所有幀數(shù);
步驟2、將每幀的梅爾濾波的特征向量作為一個(gè)24維的向量,并作為深度神經(jīng)網(wǎng)絡(luò)的輸入;
所述深度神經(jīng)網(wǎng)絡(luò)采用具有3個(gè)反向神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)系列的深度神經(jīng)網(wǎng)絡(luò)模型,該模型分為輸入層,輸出層和競爭層,并且3個(gè)反向神經(jīng)網(wǎng)絡(luò)處于并行模式;
步驟3、利用步驟2所述的深度神經(jīng)網(wǎng)絡(luò)模型對噪聲進(jìn)行訓(xùn)練與分類。
2.根據(jù)權(quán)利要求1所述的一種基于DNN噪聲分類的語音增強(qiáng)方法,其特征在于:所述步驟3的具體方法為:
步驟3.1、由學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)將N種噪聲信號分為3大類,然后由反向傳播神經(jīng)網(wǎng)絡(luò)再細(xì)分為15個(gè)類,設(shè)定輸出層的每一類的值為z,如下公式所示:
其中,Ok為每一個(gè)噪聲對應(yīng)的分量;
步驟3.2、初始化深度神經(jīng)網(wǎng)絡(luò)的輸入層和競爭層之間的權(quán)重和學(xué)習(xí)效率;
步驟3.3、定義深度神經(jīng)網(wǎng)絡(luò)輸入向量和競爭神經(jīng)元之間的距離,如下公式所示:
其中,R為輸入向量個(gè)數(shù),為權(quán)值矩陣W中的元素,I為單位矩陣;
步驟3.4根據(jù)步驟3.3得到的距離,隨機(jī)調(diào)整神經(jīng)元權(quán)值,使得深度神經(jīng)網(wǎng)絡(luò)輸出層結(jié)果與設(shè)定的z矩陣相同,若與z矩陣不同,則反向調(diào)整神經(jīng)元權(quán)值,使得輸出結(jié)果與z矩陣相同。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽品尚科技有限公司,未經(jīng)沈陽品尚科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811587392.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 利用頻譜特性進(jìn)行聲音分析的改進(jìn)的梅爾濾波器組結(jié)構(gòu)
- 梅爾棒涂布小車
- 聲音轉(zhuǎn)換優(yōu)化方法和系統(tǒng)
- 一種基于DNN噪聲分類的語音增強(qiáng)方法
- 個(gè)性化語音合成方法、裝置、電子設(shè)備、存儲介質(zhì)
- 設(shè)備的喚醒方法及裝置、電子設(shè)備、存儲介質(zhì)
- 基于咳嗽聲識別的病癥檢測方法及其相關(guān)設(shè)備
- 多風(fēng)格音頻合成方法、裝置、設(shè)備及存儲介質(zhì)
- 模型的訓(xùn)練方法、裝置、語音轉(zhuǎn)換方法、設(shè)備及存儲介質(zhì)
- 語音轉(zhuǎn)換方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 語音處理方法、裝置、終端及介質(zhì)
- 語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種車內(nèi)語音增強(qiáng)器、語音增強(qiáng)系統(tǒng)及增強(qiáng)方法
- 語音增強(qiáng)方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 基于局部注意力機(jī)制的語音增強(qiáng)方法、裝置及介質(zhì)
- 語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、電子設(shè)備和存儲介質(zhì)





