[發(fā)明專利]一種基于人工智能的語(yǔ)音增強(qiáng)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010551206.9 | 申請(qǐng)日: | 2020-06-16 |
| 公開(kāi)(公告)號(hào): | CN111833893A | 公開(kāi)(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 王亞?wèn)| | 申請(qǐng)(專利權(quán))人: | 杭州云嘉云計(jì)算有限公司 |
| 主分類號(hào): | G10L21/0208 | 分類號(hào): | G10L21/0208;G10L15/20 |
| 代理公司: | 杭州杭誠(chéng)專利事務(wù)所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 311100 浙江省杭州市余*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 人工智能 語(yǔ)音 增強(qiáng) 方法 | ||
本發(fā)明公開(kāi)了一種基于人工智能的語(yǔ)音增強(qiáng)方法。為了克服現(xiàn)有技術(shù)數(shù)據(jù)處理復(fù)雜,模型臃腫,訓(xùn)練難度大,計(jì)算速度慢,靈活性差的問(wèn)題;本發(fā)明包括以下步驟:S1:訓(xùn)練數(shù)據(jù)預(yù)處理;提取音頻數(shù)據(jù)的時(shí)域序列,進(jìn)行切片處理;S2:模型訓(xùn)練和部署;建立GAN算法模型,根據(jù)音頻數(shù)據(jù)模擬進(jìn)行對(duì)抗式訓(xùn)練;將訓(xùn)練完成的GAN算法模型部署到機(jī)器的服務(wù)器中;S3:模型測(cè)試;對(duì)測(cè)試數(shù)據(jù)中的帶噪音頻進(jìn)行切片處理,在訓(xùn)練完成的GAN算法模型中進(jìn)行數(shù)據(jù)除噪與音頻重構(gòu),完成音頻的語(yǔ)音增強(qiáng);S4:模型評(píng)估優(yōu)化;采用多種方式對(duì)語(yǔ)音增強(qiáng)后的音頻質(zhì)量進(jìn)行評(píng)估。本方案基于GAN算法模型,模型結(jié)構(gòu)簡(jiǎn)單,占用空間小,數(shù)據(jù)預(yù)處理簡(jiǎn)單,減小了訓(xùn)練難度,能夠靈活調(diào)用。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語(yǔ)音增強(qiáng)方法。
背景技術(shù)
在接收語(yǔ)音信號(hào)的同時(shí),語(yǔ)音總是不可避免地受到噪聲的干擾,或是遇到采音效果差等問(wèn)題,這些干擾不僅造成語(yǔ)音污染,還會(huì)導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)性能的惡化。一方面,受噪聲污染的音頻會(huì)惡化人的聽(tīng)感;另一方面,也一定程度上影響了語(yǔ)音識(shí)別系統(tǒng)的性能。因此,如何從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音,維持音頻的聲音強(qiáng)度,改善音頻的可聽(tīng)性,是語(yǔ)音識(shí)別工作的一項(xiàng)重要內(nèi)容。語(yǔ)音增強(qiáng)作為一種預(yù)處理方案,是改善智能語(yǔ)音服務(wù)和提高音頻可聽(tīng)性的有效手段。
現(xiàn)有的語(yǔ)音增強(qiáng)的手段,例如,一種在中國(guó)專利文獻(xiàn)上公開(kāi)的“語(yǔ)音增強(qiáng)方法”,其公告號(hào)CN110767244A,包括:提取各語(yǔ)音幀的聲學(xué)特征;利用干凈語(yǔ)音的與噪聲語(yǔ)音的樣本對(duì)漸進(jìn)式雙輸出神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,利用訓(xùn)練后的漸進(jìn)式雙輸出神經(jīng)網(wǎng)絡(luò)模型估計(jì)各語(yǔ)音幀的理想軟掩蔽,并進(jìn)行聲學(xué)特征的增強(qiáng)處理;如果應(yīng)用到人耳,則利用增強(qiáng)后的聲學(xué)特征對(duì)波形進(jìn)行重構(gòu),得到可主觀測(cè)聽(tīng)的波形;如果應(yīng)用到語(yǔ)音識(shí)別系統(tǒng),則將估計(jì)到的理想軟掩蔽應(yīng)用到輸入語(yǔ)音的聲學(xué)特征上,得到掩蔽后的聲學(xué)特征,然后對(duì)波形進(jìn)行重構(gòu)得到增強(qiáng)后的語(yǔ)音。
現(xiàn)有的語(yǔ)音增強(qiáng)的技術(shù)手段數(shù)據(jù)預(yù)處理復(fù)雜,需要做頻域變換,分幀后還需再做拼接等處理;需先后訓(xùn)練多個(gè)模型,全連接結(jié)構(gòu)參數(shù)量大,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練難度大,時(shí)間長(zhǎng);在面對(duì)一個(gè)新的噪聲場(chǎng)景時(shí),需要從新進(jìn)行模型的訓(xùn)練;模型臃腫,計(jì)算速度慢。
發(fā)明內(nèi)容
本發(fā)明主要解決現(xiàn)有技術(shù)數(shù)據(jù)處理復(fù)雜,模型臃腫,訓(xùn)練難度大,計(jì)算速度慢,靈活性差的問(wèn)題;提供一種基于人工智能的語(yǔ)音增強(qiáng)方法,只需要一個(gè)GAN模型,就可以完成帶噪音頻的去噪工作,占用空間小,數(shù)據(jù)處理過(guò)程簡(jiǎn)單,訓(xùn)練難度減低。
本發(fā)明的上述技術(shù)問(wèn)題主要是通過(guò)下述技術(shù)方案得以解決的:
本發(fā)明包括以下步驟:
S1:訓(xùn)練數(shù)據(jù)預(yù)處理;提取音頻數(shù)據(jù)的時(shí)域序列,對(duì)音頻數(shù)據(jù)進(jìn)行切片處理;
S2:模型訓(xùn)練和部署;建立GAN算法模型,根據(jù)音頻數(shù)據(jù)模擬進(jìn)行對(duì)抗式訓(xùn)練;將訓(xùn)練完成的GAN算法模型部署到機(jī)器的服務(wù)器中;
S3:模型測(cè)試;對(duì)測(cè)試數(shù)據(jù)中的帶噪音頻進(jìn)行切片處理,再訓(xùn)練完成的GAN算法模型中進(jìn)行數(shù)據(jù)除噪與音頻重構(gòu),完成音頻的語(yǔ)音增強(qiáng);
S4:模型評(píng)估優(yōu)化;采用多種方式對(duì)語(yǔ)音增強(qiáng)后的音頻質(zhì)量進(jìn)行評(píng)估。
本方案基于生成對(duì)抗網(wǎng)絡(luò)(GAN)算法模型,模型結(jié)構(gòu)簡(jiǎn)單,占用空間小,減小了訓(xùn)練難度,能夠通過(guò)移動(dòng)介質(zhì)靈活轉(zhuǎn)移和部署到服務(wù)端,滿足用戶的靈活調(diào)用。本方案采用端到端技術(shù),直接對(duì)音頻的時(shí)域序列進(jìn)行處理,避免了復(fù)雜的數(shù)據(jù)預(yù)處理過(guò)程;用戶只需要提供帶噪音頻,啟動(dòng)的服務(wù)即可自行進(jìn)行音頻切分并完成去噪,重構(gòu)等過(guò)程,最終反饋給用戶去除噪聲的音頻。
作為優(yōu)選,GAN算法模型包括生成器G和判別器D;
生成器G模擬輸入的真實(shí)音頻數(shù)據(jù)分布的有效映射,生成與訓(xùn)練數(shù)據(jù)相關(guān)的新樣本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州云嘉云計(jì)算有限公司,未經(jīng)杭州云嘉云計(jì)算有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010551206.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





