[發(fā)明專利]基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法在審
| 申請?zhí)枺?/td> | 201911011966.4 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110867192A | 公開(公告)日: | 2020-03-06 |
| 發(fā)明(設計)人: | 常新旭;袁曉光;寇金橋;張楊;楊林;吳敏;王昕;徐冬冬;趙曉燕;閆帥 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/02;G10L25/30;G10L25/03 |
| 代理公司: | 中國兵器工業(yè)集團公司專利中心 11011 | 代理人: | 王雪芬 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 門控 循環(huán) 解碼 網(wǎng)絡 語音 增強 方法 | ||
本發(fā)明涉及一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法,涉及語音增強技術領域。本發(fā)明針對針對現(xiàn)有的語音增強方法沒有利用上下文信息與當前待增強語音幀之間聯(lián)系的問題,基于人類聽覺感知的過程的研究,提出了一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法,在語音增強任務中引入編解碼器架構,使用編碼器對相鄰多幀語音信號建模以提取上下文信息,利用解碼器挖掘當前待增強語音幀和上下文信息之間的聯(lián)系,提高了語音增強性能。
技術領域
本發(fā)明涉及語音增強技術領域,具體涉及一種基于門控循環(huán)編解 碼網(wǎng)絡的語音增強方法。
背景技術
語音增強技術作為信號處理過程當中一個基本環(huán)節(jié),在語音識別、 移動通信和人工聽覺等諸多領域有著廣泛的應用前景。其主要目的是 提高被噪聲污染語音的質量和可懂度。最近,隨著深度學習技術的興 起,基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的有監(jiān)督語音 增強方法取得了巨大的成功,特別是在低信噪比和非平穩(wěn)噪聲的情況 下,相較于傳統(tǒng)方法表現(xiàn)出了更強大的優(yōu)勢。
從監(jiān)督學習的角度看,基于深度學習的語音增強方法主要包含三 個部分:特征、網(wǎng)絡模型和優(yōu)化目標。幅度調制譜、傅里葉對數(shù)幅度 譜和梅爾倒譜系數(shù)是常用的語音增強特征。不同的網(wǎng)絡模型也被應用 在語音增強任務中,如深度前饋神經(jīng)網(wǎng)絡(DeepFeedForward Neural Network,DFNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(Conventional Neural Network,CNN)。通常用于語 音增強任務的優(yōu)化目標可分為基于映射的目標和基于時頻掩蔽的目 標。
但是,目前基于深度學習的語音增強方法通常只利用了上下文信 息,卻忽略了上下文信息與當前待增強語音幀之間的聯(lián)系。事實上, 人類在交談中不僅關注對方當前某一時刻所說的內(nèi)容,同時也會聯(lián)系 上下文信息去處理所接受的信息。因此,根據(jù)這一現(xiàn)象,如何在語音 增強任務中挖掘上下文信息和當前待增強語音幀之間的聯(lián)系,是提高 語音增強性能的一個突破口,是當前需要解決的問題。
發(fā)明內(nèi)容
(一)要解決的技術問題
本發(fā)明要解決的技術問題是:如何在語音增強任務中挖掘上下文 信息和當前待增強語音幀之間的聯(lián)系,提高語音增強性能。
(二)技術方案
為了解決上述技術問題,本發(fā)明提供了一種基于門控循環(huán)編解碼 網(wǎng)絡的語音增強方法,包括以下步驟:
步驟一:混合實驗數(shù)據(jù),提取對數(shù)功率譜特征;
步驟二:構建基于門控循環(huán)神經(jīng)網(wǎng)絡的語音增強模型;
步驟三:將步驟一提取的數(shù)據(jù)對所述語音增強模型進行訓練;
步驟四:將步驟一提取的數(shù)據(jù)作為待增強語音特征送入訓練好的 語音增強模型,輸出得到相應的干凈語音特征估計;
步驟五:將步驟四所得到的待增強語音特征的干凈語音特征估計 進行波形重構,恢復語音信號。
優(yōu)選地,步驟一具體為:
1)將原始的干凈語音數(shù)據(jù)和噪聲數(shù)據(jù)重采樣為16000hz;
2)按照不同的輸入信噪比,混合干凈語音數(shù)據(jù)和噪聲數(shù)據(jù),構 建含噪語音數(shù)據(jù);
3)提取干凈語音數(shù)據(jù)和含噪語音數(shù)據(jù)的對數(shù)功率譜特征,構建 用于訓練網(wǎng)絡的干凈語音特征和含噪語音特征的數(shù)據(jù)對,其 中,計算對數(shù)功率譜時的幀長為512個點,幀移為256點, 所計算出的特征維度為257。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經(jīng)北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911011966.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:輔助觸控裝置、方法和電子設備
- 下一篇:一種便攜式儲能充電器





