[發(fā)明專利]一種基于人工智能的語(yǔ)音增強(qiáng)方法在審

申請(qǐng)?zhí)枺?/td>	202010551206.9	申請(qǐng)日：	2020-06-16
公開(kāi)（公告）號(hào)：	CN111833893A	公開(kāi)（公告）日：	2020-10-27
發(fā)明（設(shè)計(jì)）人：	王亞?wèn)\|	申請(qǐng)（專利權(quán)）人：	杭州云嘉云計(jì)算有限公司
主分類號(hào)：	G10L21/0208	分類號(hào)：	G10L21/0208;G10L15/20
代理公司：	杭州杭誠(chéng)專利事務(wù)所有限公司 33109	代理人：	尉偉敏
地址：	311100 浙江省杭州市余***	國(guó)省代碼：	浙江;33
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于人工智能語(yǔ)音增強(qiáng) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門(mén)專利

【說(shuō)明書(shū)】：

本發(fā)明公開(kāi)了一種基于人工智能的語(yǔ)音增強(qiáng)方法。為了克服現(xiàn)有技術(shù)數(shù)據(jù)處理復(fù)雜，模型臃腫，訓(xùn)練難度大，計(jì)算速度慢，靈活性差的問(wèn)題；本發(fā)明包括以下步驟：S1：訓(xùn)練數(shù)據(jù)預(yù)處理；提取音頻數(shù)據(jù)的時(shí)域序列，進(jìn)行切片處理；S2：模型訓(xùn)練和部署；建立GAN算法模型，根據(jù)音頻數(shù)據(jù)模擬進(jìn)行對(duì)抗式訓(xùn)練；將訓(xùn)練完成的GAN算法模型部署到機(jī)器的服務(wù)器中；S3：模型測(cè)試；對(duì)測(cè)試數(shù)據(jù)中的帶噪音頻進(jìn)行切片處理，在訓(xùn)練完成的GAN算法模型中進(jìn)行數(shù)據(jù)除噪與音頻重構(gòu)，完成音頻的語(yǔ)音增強(qiáng)；S4：模型評(píng)估優(yōu)化；采用多種方式對(duì)語(yǔ)音增強(qiáng)后的音頻質(zhì)量進(jìn)行評(píng)估。本方案基于GAN算法模型，模型結(jié)構(gòu)簡(jiǎn)單，占用空間小，數(shù)據(jù)預(yù)處理簡(jiǎn)單，減小了訓(xùn)練難度，能夠靈活調(diào)用。

技術(shù)領(lǐng)域

本發(fā)明涉及一種語(yǔ)音處理技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的語(yǔ)音增強(qiáng)方法。

背景技術(shù)

在接收語(yǔ)音信號(hào)的同時(shí)，語(yǔ)音總是不可避免地受到噪聲的干擾，或是遇到采音效果差等問(wèn)題，這些干擾不僅造成語(yǔ)音污染，還會(huì)導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)性能的惡化。一方面，受噪聲污染的音頻會(huì)惡化人的聽(tīng)感；另一方面，也一定程度上影響了語(yǔ)音識(shí)別系統(tǒng)的性能。因此，如何從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音，維持音頻的聲音強(qiáng)度，改善音頻的可聽(tīng)性，是語(yǔ)音識(shí)別工作的一項(xiàng)重要內(nèi)容。語(yǔ)音增強(qiáng)作為一種預(yù)處理方案，是改善智能語(yǔ)音服務(wù)和提高音頻可聽(tīng)性的有效手段。

現(xiàn)有的語(yǔ)音增強(qiáng)的手段，例如，一種在中國(guó)專利文獻(xiàn)上公開(kāi)的“語(yǔ)音增強(qiáng)方法”，其公告號(hào)CN110767244A，包括：提取各語(yǔ)音幀的聲學(xué)特征；利用干凈語(yǔ)音的與噪聲語(yǔ)音的樣本對(duì)漸進(jìn)式雙輸出神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，利用訓(xùn)練后的漸進(jìn)式雙輸出神經(jīng)網(wǎng)絡(luò)模型估計(jì)各語(yǔ)音幀的理想軟掩蔽，并進(jìn)行聲學(xué)特征的增強(qiáng)處理；如果應(yīng)用到人耳，則利用增強(qiáng)后的聲學(xué)特征對(duì)波形進(jìn)行重構(gòu)，得到可主觀測(cè)聽(tīng)的波形；如果應(yīng)用到語(yǔ)音識(shí)別系統(tǒng)，則將估計(jì)到的理想軟掩蔽應(yīng)用到輸入語(yǔ)音的聲學(xué)特征上，得到掩蔽后的聲學(xué)特征，然后對(duì)波形進(jìn)行重構(gòu)得到增強(qiáng)后的語(yǔ)音。

現(xiàn)有的語(yǔ)音增強(qiáng)的技術(shù)手段數(shù)據(jù)預(yù)處理復(fù)雜，需要做頻域變換，分幀后還需再做拼接等處理；需先后訓(xùn)練多個(gè)模型，全連接結(jié)構(gòu)參數(shù)量大，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練難度大，時(shí)間長(zhǎng)；在面對(duì)一個(gè)新的噪聲場(chǎng)景時(shí)，需要從新進(jìn)行模型的訓(xùn)練；模型臃腫，計(jì)算速度慢。

發(fā)明內(nèi)容

本發(fā)明主要解決現(xiàn)有技術(shù)數(shù)據(jù)處理復(fù)雜，模型臃腫，訓(xùn)練難度大，計(jì)算速度慢，靈活性差的問(wèn)題；提供一種基于人工智能的語(yǔ)音增強(qiáng)方法，只需要一個(gè)GAN模型，就可以完成帶噪音頻的去噪工作，占用空間小，數(shù)據(jù)處理過(guò)程簡(jiǎn)單，訓(xùn)練難度減低。

本發(fā)明的上述技術(shù)問(wèn)題主要是通過(guò)下述技術(shù)方案得以解決的：

本發(fā)明包括以下步驟：

S1：訓(xùn)練數(shù)據(jù)預(yù)處理；提取音頻數(shù)據(jù)的時(shí)域序列，對(duì)音頻數(shù)據(jù)進(jìn)行切片處理；

S2：模型訓(xùn)練和部署；建立GAN算法模型，根據(jù)音頻數(shù)據(jù)模擬進(jìn)行對(duì)抗式訓(xùn)練；將訓(xùn)練完成的GAN算法模型部署到機(jī)器的服務(wù)器中；

S3：模型測(cè)試；對(duì)測(cè)試數(shù)據(jù)中的帶噪音頻進(jìn)行切片處理，再訓(xùn)練完成的GAN算法模型中進(jìn)行數(shù)據(jù)除噪與音頻重構(gòu)，完成音頻的語(yǔ)音增強(qiáng)；

S4：模型評(píng)估優(yōu)化；采用多種方式對(duì)語(yǔ)音增強(qiáng)后的音頻質(zhì)量進(jìn)行評(píng)估。

本方案基于生成對(duì)抗網(wǎng)絡(luò)(GAN)算法模型，模型結(jié)構(gòu)簡(jiǎn)單，占用空間小，減小了訓(xùn)練難度，能夠通過(guò)移動(dòng)介質(zhì)靈活轉(zhuǎn)移和部署到服務(wù)端，滿足用戶的靈活調(diào)用。本方案采用端到端技術(shù)，直接對(duì)音頻的時(shí)域序列進(jìn)行處理，避免了復(fù)雜的數(shù)據(jù)預(yù)處理過(guò)程；用戶只需要提供帶噪音頻，啟動(dòng)的服務(wù)即可自行進(jìn)行音頻切分并完成去噪，重構(gòu)等過(guò)程，最終反饋給用戶去除噪聲的音頻。

作為優(yōu)選，GAN算法模型包括生成器G和判別器D；

生成器G模擬輸入的真實(shí)音頻數(shù)據(jù)分布的有效映射，生成與訓(xùn)練數(shù)據(jù)相關(guān)的新樣本；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州云嘉云計(jì)算有限公司，未經(jīng)杭州云嘉云計(jì)算有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010551206.9/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào)，以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào)，例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式，例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】