[發(fā)明專(zhuān)利]基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110587258.6 | 申請(qǐng)日: | 2021-05-27 |
| 公開(kāi)(公告)號(hào): | CN113314136A | 公開(kāi)(公告)日: | 2021-08-27 |
| 發(fā)明(設(shè)計(jì))人: | 譚浩;劉天翼;郭哲宇;郝佳晨;樊書(shū)宏 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安電子科技大學(xué) |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L25/30;G10L25/60 |
| 代理公司: | 北京神州信德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11814 | 代理人: | 劉真 |
| 地址: | 710126 陜西*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 定向 提取 技術(shù) 語(yǔ)音 優(yōu)化 方法 | ||
1.一種基于音頻場(chǎng)景識(shí)別的的定向降噪方法,其特征在于該方法包括以下步驟:
S1、建立聲音庫(kù);
S2、定義使用的環(huán)境;
S3、構(gòu)建深度語(yǔ)音去噪自監(jiān)督語(yǔ)音增強(qiáng)全卷積神經(jīng)網(wǎng)絡(luò);
S4、進(jìn)行聲音增強(qiáng)。
2.如權(quán)利要求1所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于S1步驟中,建立聲音庫(kù),采用TIMIT語(yǔ)料庫(kù),語(yǔ)料庫(kù)中的音頻文件由若干個(gè)講話者組成的復(fù)數(shù)個(gè)語(yǔ)音音頻文件組成。
3.如權(quán)利要求2所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于每個(gè)音頻文件長(zhǎng)度約為15s;上述音頻文件為干凈語(yǔ)音信號(hào),將干凈語(yǔ)音信號(hào)通過(guò)UrbanSound8K數(shù)據(jù)集的噪聲信號(hào)破壞。
4.如權(quán)利要求3所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于所述數(shù)據(jù)集由各種噪聲文件組成,每個(gè)噪聲文件持續(xù)20s;帶噪的語(yǔ)音文件以48kHz采樣,歸一化到絕對(duì)單位最大值。
5.如權(quán)利要求1所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于S2步驟中,將不同的噪聲信號(hào)分別對(duì)應(yīng)定義到餐廳、室外、馬路場(chǎng)景中。
6.如權(quán)利要求1所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于S3步驟中,構(gòu)建深度語(yǔ)音去噪自監(jiān)督語(yǔ)音增強(qiáng)全卷積神經(jīng)網(wǎng)絡(luò)。
7.如權(quán)利要求6所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于進(jìn)一步包括有:
(1)模型的輸入信號(hào)
一個(gè)語(yǔ)音+噪聲混合或含噪語(yǔ)音信號(hào)y(t)表示為y(t)=x(t)+n(t);
其中x(t)和n(t)分別表示純凈語(yǔ)音信號(hào)和附加噪聲信號(hào);
網(wǎng)絡(luò)參數(shù)和連接權(quán)值表示為Θ;
將y(t)和Θ作為模型的兩個(gè)輸入;
(2)模型的訓(xùn)練
語(yǔ)音去噪網(wǎng)絡(luò)的訓(xùn)練基于幀的方式進(jìn)行,通過(guò)將噪聲語(yǔ)音信號(hào)分割成20ms幀,相鄰幀之間有50%的重疊,利用深度神經(jīng)網(wǎng)絡(luò)提取去噪后的語(yǔ)音信號(hào)其中yi是含噪聲語(yǔ)音信號(hào)的輸入幀,i表示信號(hào)幀。訓(xùn)練對(duì)(yi,xi)用于最小化損失函數(shù)求得網(wǎng)絡(luò)的權(quán)值。
8.如權(quán)利要求7所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于所使用的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)是一個(gè)完全卷積神經(jīng)網(wǎng)絡(luò),使用一維卷積對(duì)時(shí)間序列數(shù)據(jù)的時(shí)間屬性進(jìn)行建模;完全卷積神經(jīng)網(wǎng)絡(luò)使用6個(gè)卷積層,55個(gè)大小為(30,1)的濾波器分布在第一到第五卷積層,使用1個(gè)大小為(1,1)的濾波器在最后一個(gè)卷積層,使用雙曲正切激活函數(shù)。
9.如權(quán)利要求1所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于S4步驟中,聲音增強(qiáng),是指利用深度吸引子與其同源的時(shí)頻點(diǎn)間的相似度變高來(lái)計(jì)算分離掩蔽,在失真度最小的條件下,增強(qiáng)提取得到的純凈語(yǔ)音信號(hào)。
10.如權(quán)利要求9所述的基于定向降噪與干聲提取技術(shù)的語(yǔ)音優(yōu)化方法,其特征在于S4步驟中,對(duì)于單麥克風(fēng)語(yǔ)音分離的深度吸引子網(wǎng)絡(luò),在高維空間中嵌入吸引子將時(shí)頻信息整合來(lái)訓(xùn)練的網(wǎng)絡(luò),模型實(shí)現(xiàn)了端到端的訓(xùn)練;對(duì)于獨(dú)立聲源語(yǔ)音分離,在原DANet基礎(chǔ)上提出第三種尋找聲源嵌入空間中的吸引子方法,并進(jìn)行訓(xùn)練、測(cè)試階段的實(shí)現(xiàn);
其中,聲源分離方法。步驟:
101.在每個(gè)T-F塊生成一個(gè)高維嵌入空間;
102.在嵌入空間中形成吸引子,將屬于該聲源的TF塊拉向自身,造成空間中的聲源分離開(kāi)來(lái);
103.利用每個(gè)嵌入空間和吸引子的相似性來(lái)估計(jì)混合語(yǔ)音中每個(gè)聲源的mask;
104.由于掩模的順序與吸引子直接相關(guān),因此在吸引子確定之后確定掩模順序;
105.設(shè)定一組錨點(diǎn),便可以不通過(guò)后聚類(lèi)直接估計(jì)聲源掩碼。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110587258.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 技術(shù)評(píng)價(jià)裝置、技術(shù)評(píng)價(jià)程序、技術(shù)評(píng)價(jià)方法
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 視聽(tīng)模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫(kù)的技術(shù)推薦方法





