[發(fā)明專利]基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法、裝置及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010117498.5 | 申請(qǐng)日: | 2020-02-25 |
| 公開(公告)號(hào): | CN111341331B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 方澤煌;康元?jiǎng)?/a> | 申請(qǐng)(專利權(quán))人: | 廈門億聯(lián)網(wǎng)絡(luò)技術(shù)股份有限公司 |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L21/0208 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郭浩輝;麥小嬋 |
| 地址: | 361009 福建省廈門市*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 局部 注意力 機(jī)制 語(yǔ)音 增強(qiáng) 方法 裝置 介質(zhì) | ||
本發(fā)明公開了一種基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法,包括:采集待處理語(yǔ)音,對(duì)待處理語(yǔ)音進(jìn)行語(yǔ)音合成處理,得到待增強(qiáng)語(yǔ)音;對(duì)待增強(qiáng)語(yǔ)音進(jìn)行特征提取,得到待增強(qiáng)語(yǔ)音的多維特征;建立基于局部注意力機(jī)制的RNN模型,并將多維特征輸入至RNN模型;對(duì)RNN模型進(jìn)行訓(xùn)練,得到語(yǔ)音增強(qiáng)模型;根據(jù)語(yǔ)音增強(qiáng)模型對(duì)多維特征進(jìn)行計(jì)算得到時(shí)頻掩蔽因子,根據(jù)時(shí)頻掩蔽因子以及待增強(qiáng)語(yǔ)音的頻譜,得到待增強(qiáng)語(yǔ)音的增強(qiáng)語(yǔ)音頻譜;根據(jù)增強(qiáng)語(yǔ)音頻譜得到語(yǔ)音增強(qiáng)波形。本發(fā)明提供的一種基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法及系統(tǒng),能夠有效提高語(yǔ)音增強(qiáng)的效果,且能夠有效提高語(yǔ)音增強(qiáng)的穩(wěn)定性和可靠性。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及一種基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法、裝置及介質(zhì)。
背景技術(shù)
語(yǔ)音增強(qiáng)是語(yǔ)音處理領(lǐng)域的一個(gè)重要課題,是指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲干擾、甚至覆蓋后,從噪聲背景中提取有用的語(yǔ)音信號(hào),抑制、降低噪聲干擾的技術(shù)。隨著智能音箱和人機(jī)交互等相關(guān)應(yīng)用的發(fā)展,在理想環(huán)境下,語(yǔ)音識(shí)別和說話人識(shí)別等算法已經(jīng)具有較高的準(zhǔn)確率,但是在實(shí)際場(chǎng)景中,噪聲的存在使得這些語(yǔ)音應(yīng)用的準(zhǔn)確度極大降低,因此降低噪聲對(duì)語(yǔ)音信號(hào)的干擾和增強(qiáng)語(yǔ)音信號(hào)是亟待解決的問題。
目前,現(xiàn)有的語(yǔ)音增強(qiáng)方法主要有譜減法、維納濾波和基于最小均方誤差的短時(shí)譜幅增強(qiáng)方法。
使用現(xiàn)有的語(yǔ)音增強(qiáng)方法,存在以下問題:
在很大程度上取決于噪聲的估計(jì),且這些方法適用場(chǎng)景少,未能充分考慮各個(gè)場(chǎng)景下的語(yǔ)音特性,不可避免地引入失真,造成語(yǔ)音增強(qiáng)效果不佳。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供的一種基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法、裝置及介質(zhì),能夠有效提高語(yǔ)音增強(qiáng)的效果,且能夠有效提高語(yǔ)音增強(qiáng)的穩(wěn)定性和可靠性。
為解決上述問題,一方面,本發(fā)明的一個(gè)實(shí)施例提供了一種基于局部注意力機(jī)制的語(yǔ)音增強(qiáng)方法,包括:
采集待處理語(yǔ)音,對(duì)所述待處理語(yǔ)音進(jìn)行語(yǔ)音合成處理,得到待增強(qiáng)語(yǔ)音;
對(duì)所述待增強(qiáng)語(yǔ)音進(jìn)行特征提取,得到所述待增強(qiáng)語(yǔ)音的多維特征;
建立基于局部注意力機(jī)制的RNN模型,并將所述多維特征輸入至所述RNN模型;
對(duì)所述RNN模型進(jìn)行訓(xùn)練,得到語(yǔ)音增強(qiáng)模型;
根據(jù)所述語(yǔ)音增強(qiáng)模型對(duì)所述多維特征進(jìn)行計(jì)算得到時(shí)頻掩蔽因子,根據(jù)所述時(shí)頻掩蔽因子以及所述待增強(qiáng)語(yǔ)音的頻譜,得到所述待增強(qiáng)語(yǔ)音的增強(qiáng)語(yǔ)音頻譜;
根據(jù)所述增強(qiáng)語(yǔ)音頻譜得到語(yǔ)音增強(qiáng)波形。
進(jìn)一步地,所述待處理語(yǔ)音包括純凈語(yǔ)音和噪聲;所述采集待處理語(yǔ)音,對(duì)所述待處理語(yǔ)音進(jìn)行語(yǔ)音合成處理,得到待增強(qiáng)語(yǔ)音,具體為:
采集純凈語(yǔ)音以及不同場(chǎng)景的原始噪聲,根據(jù)預(yù)設(shè)的篩選規(guī)則對(duì)所述原始噪聲進(jìn)行篩選,得到常規(guī)噪聲;對(duì)所述純凈語(yǔ)音和所述常規(guī)噪聲進(jìn)行語(yǔ)音合成處理,得到待增強(qiáng)語(yǔ)音。
進(jìn)一步地,所述對(duì)所述待增強(qiáng)語(yǔ)音進(jìn)行特征提取,得到所述待增強(qiáng)語(yǔ)音的多維特征,具體為:
對(duì)所述待增強(qiáng)語(yǔ)音進(jìn)行加窗分幀處理并進(jìn)行短傅里葉變換,并計(jì)算每幀待增強(qiáng)語(yǔ)音的頻域?qū)?shù)譜;
對(duì)所述每幀待增強(qiáng)語(yǔ)音的頻域?qū)?shù)譜進(jìn)行特征提取,得到所述待增強(qiáng)語(yǔ)音的62維特征。
進(jìn)一步地,所述對(duì)所述每幀待增強(qiáng)語(yǔ)音的頻域?qū)?shù)譜進(jìn)行特征提取,得到所述待增強(qiáng)語(yǔ)音的62維特征,具體為:
將所述每幀待增強(qiáng)語(yǔ)音的頻域?qū)?shù)譜均分為22個(gè)子頻帶,對(duì)每一子頻帶進(jìn)行DCT變換得到22維特征;
將所述22維特征中的每一當(dāng)前幀與所述當(dāng)前幀的前兩幀和所述當(dāng)前幀的后兩幀分別進(jìn)行差異比較,并根據(jù)所述當(dāng)前幀的特征得到36維特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門億聯(lián)網(wǎng)絡(luò)技術(shù)股份有限公司,未經(jīng)廈門億聯(lián)網(wǎng)絡(luò)技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010117498.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





