[發(fā)明專利]一種基于神經(jīng)網(wǎng)絡(luò)模型的會議終端語音降噪方法有效
| 申請?zhí)枺?/td> | 201810934162.0 | 申請日: | 2018-08-16 |
| 公開(公告)號: | CN109065067B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 薛建清;陳東敏;劉敏;何志輝 | 申請(專利權(quán))人: | 福建星網(wǎng)智慧科技有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0232;G10L25/30;G10L25/24;G10L25/18 |
| 代理公司: | 福州市鼓樓區(qū)京華專利事務(wù)所(普通合伙) 35212 | 代理人: | 林云嬌 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 神經(jīng)網(wǎng)絡(luò) 模型 會議 終端 語音 方法 | ||
本發(fā)明提供一種基于神經(jīng)網(wǎng)絡(luò)模型的會議終端語音降噪方法,包括1、會議終端設(shè)備對音頻文件進(jìn)行采集,生成時(shí)域的數(shù)字音頻信號;2、將數(shù)字音頻信號分幀并進(jìn)行短時(shí)傅里葉變換;3、將頻域的幅度譜映射到頻帶中,進(jìn)而求其梅爾倒譜系數(shù);4、利用梅爾倒譜系數(shù)計(jì)算一階和二階差分系數(shù),在每個(gè)頻帶上計(jì)算出基音相關(guān)系數(shù),再提取基音周期特征和VAD特征;5、將音頻的輸入特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入,離線訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其學(xué)習(xí)到生成降噪語音的頻帶增益,訓(xùn)練好權(quán)重固化出來;6、使用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)后產(chǎn)生頻帶增益,將輸出的頻帶增益映射到頻譜,加上相位信息,通過傅里葉逆變換還原成降噪后的語音信號。本發(fā)明可達(dá)到實(shí)時(shí)降噪的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理和通信技術(shù)領(lǐng)域,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)模型的會議終端語音降噪方法。
背景技術(shù)
語音降噪技術(shù)是指將帶噪的音頻信號中去掉噪聲部分,擁有廣泛的應(yīng)用,如應(yīng)用在移動終端、會議終端設(shè)備。語音降噪技術(shù)的研究,由來已久,單聲道語音降噪是非常具有挑戰(zhàn)性的課題。只用一個(gè)麥克風(fēng)進(jìn)行語音降噪,不僅可以降低設(shè)備成本,而且在實(shí)際的使用中更加方便。
現(xiàn)有技術(shù)中是以原始的幅度譜作為神經(jīng)網(wǎng)絡(luò)的輸入,輸入節(jié)點(diǎn)過多導(dǎo)致計(jì)算量偏大,影響實(shí)時(shí)語音通訊,需要對幅度譜進(jìn)一步壓縮。以幅度譜增益為神經(jīng)網(wǎng)絡(luò)的輸出,輸出節(jié)點(diǎn)越多,計(jì)算量越大,由于人耳對信號的感知特性,通過頻譜分段,提取特征,減小輸出節(jié)點(diǎn)數(shù),然后由神經(jīng)網(wǎng)絡(luò)的輸出增益差值擴(kuò)展得到整個(gè)幅度譜增益。輸出節(jié)點(diǎn)越少,計(jì)算量越小,但同時(shí)導(dǎo)致差值擴(kuò)展時(shí)誤差越大,尤其是當(dāng)信噪比較低時(shí),一些較弱的語音信號會明顯抑制導(dǎo)致聲音斷續(xù)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題,在于提供一種基于神經(jīng)網(wǎng)絡(luò)模型的會議終端語音降噪方法,通過會議終端設(shè)備的單麥克風(fēng)采集音頻信號源,提取音頻特征,通過神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力,生成降噪的語音信號特征,加上原始語音信號的相位信息,通過傅里葉逆變換還原成語音信號,發(fā)送給接收端,達(dá)到實(shí)時(shí)降噪的目的。
本發(fā)明的問題是這樣實(shí)現(xiàn)的:
一種基于神經(jīng)網(wǎng)絡(luò)模型的會議終端語音降噪方法,包括如下步驟:
步驟1、會議終端設(shè)備對音頻文件進(jìn)行采集,生成時(shí)域的數(shù)字音頻信號,該時(shí)域的數(shù)字音頻信號混有語音信號和噪聲信號;
步驟2、將該時(shí)域的數(shù)字音頻信號分幀并進(jìn)行短時(shí)傅里葉變換后由時(shí)域轉(zhuǎn)到頻域;
步驟3、根據(jù)人的聽覺特性,將頻域的幅度譜映射到頻帶中,進(jìn)而求其梅爾倒譜系數(shù);
步驟4、利用梅爾倒譜系數(shù)計(jì)算出一階差分系數(shù)以及二階差分系數(shù),在每個(gè)頻帶上計(jì)算出基音相關(guān)系數(shù),再提取時(shí)域的數(shù)字音頻信號的基音周期特征和VAD特征,將梅爾倒譜系數(shù)、一階差分系數(shù)、二階差分系數(shù)、基音相關(guān)系數(shù)、基音周期特征和VAD特征作為音頻的輸入特征參數(shù);
步驟5、將音頻的輸入特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入,將一階差分系數(shù)、二階差分系數(shù)、基音相關(guān)系數(shù)、基音周期特征和VAD特征用來離線訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其學(xué)習(xí)到生成降噪語音的頻帶增益,訓(xùn)練好的權(quán)重固化出來,供每次算法調(diào)用;
步驟6、使用具有長短期記憶的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)后產(chǎn)生頻帶增益并輸出,將輸出的頻帶增益通過線性插值的方式映射到頻譜,并得到頻譜上每個(gè)頻點(diǎn)的增益,再加上時(shí)域的數(shù)字音頻信號的相位信息,通過傅里葉逆變換,最終還原成降噪后的語音信號。
進(jìn)一步地,所述步驟2具體為:
將該時(shí)域的數(shù)字音頻信號進(jìn)行分幀,設(shè)置每10ms為一幀,共N幀,N為正整數(shù);在第1幀前面設(shè)置第0幀作為補(bǔ)償幀,在第N幀后面設(shè)置第N+1幀作為補(bǔ)償幀,從第1幀開始至第N幀每次處理當(dāng)前幀和前一幀共20ms的數(shù)字音頻信號,相鄰幀之間具有10ms的重疊,從第1幀至第N幀的每一幀都進(jìn)行短時(shí)傅里葉變換處理兩次以加強(qiáng)算法的可靠性,第1幀至第N幀都處理完畢后就完成了由時(shí)域的數(shù)字音頻信號到頻域的數(shù)字音頻信號的轉(zhuǎn)變。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建星網(wǎng)智慧科技有限公司,未經(jīng)福建星網(wǎng)智慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810934162.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





