[發(fā)明專利]基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法在審

申請?zhí)枺?/td>	201911011966.4	申請日：	2019-10-23
公開（公告）號：	CN110867192A	公開（公告）日：	2020-03-06
發(fā)明（設計）人：	常新旭;袁曉光;寇金橋;張楊;楊林;吳敏;王昕;徐冬冬;趙曉燕;閆帥	申請（專利權）人：	北京計算機技術及應用研究所
主分類號：	G10L21/0208	分類號：	G10L21/0208;G10L21/02;G10L25/30;G10L25/03
代理公司：	中國兵器工業(yè)集團公司專利中心 11011	代理人：	王雪芬
地址：	100854***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于門控循環(huán) 解碼網(wǎng)絡語音增強方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法，涉及語音增強技術領域。本發(fā)明針對針對現(xiàn)有的語音增強方法沒有利用上下文信息與當前待增強語音幀之間聯(lián)系的問題，基于人類聽覺感知的過程的研究，提出了一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法，在語音增強任務中引入編解碼器架構，使用編碼器對相鄰多幀語音信號建模以提取上下文信息，利用解碼器挖掘當前待增強語音幀和上下文信息之間的聯(lián)系，提高了語音增強性能。

技術領域

本發(fā)明涉及語音增強技術領域，具體涉及一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法。

背景技術

語音增強技術作為信號處理過程當中一個基本環(huán)節(jié)，在語音識別、移動通信和人工聽覺等諸多領域有著廣泛的應用前景。其主要目的是提高被噪聲污染語音的質量和可懂度。最近，隨著深度學習技術的興起，基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的有監(jiān)督語音增強方法取得了巨大的成功，特別是在低信噪比和非平穩(wěn)噪聲的情況下，相較于傳統(tǒng)方法表現(xiàn)出了更強大的優(yōu)勢。

從監(jiān)督學習的角度看，基于深度學習的語音增強方法主要包含三個部分：特征、網(wǎng)絡模型和優(yōu)化目標。幅度調制譜、傅里葉對數(shù)幅度譜和梅爾倒譜系數(shù)是常用的語音增強特征。不同的網(wǎng)絡模型也被應用在語音增強任務中，如深度前饋神經(jīng)網(wǎng)絡(DeepFeedForward Neural Network,DFNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(Conventional Neural Network，CNN)。通常用于語音增強任務的優(yōu)化目標可分為基于映射的目標和基于時頻掩蔽的目標。

但是，目前基于深度學習的語音增強方法通常只利用了上下文信息，卻忽略了上下文信息與當前待增強語音幀之間的聯(lián)系。事實上，人類在交談中不僅關注對方當前某一時刻所說的內(nèi)容，同時也會聯(lián)系上下文信息去處理所接受的信息。因此，根據(jù)這一現(xiàn)象，如何在語音增強任務中挖掘上下文信息和當前待增強語音幀之間的聯(lián)系，是提高語音增強性能的一個突破口，是當前需要解決的問題。

發(fā)明內(nèi)容

(一)要解決的技術問題

本發(fā)明要解決的技術問題是：如何在語音增強任務中挖掘上下文信息和當前待增強語音幀之間的聯(lián)系，提高語音增強性能。

(二)技術方案

為了解決上述技術問題，本發(fā)明提供了一種基于門控循環(huán)編解碼網(wǎng)絡的語音增強方法，包括以下步驟：

步驟一：混合實驗數(shù)據(jù)，提取對數(shù)功率譜特征；

步驟二：構建基于門控循環(huán)神經(jīng)網(wǎng)絡的語音增強模型；

步驟三：將步驟一提取的數(shù)據(jù)對所述語音增強模型進行訓練；

步驟四：將步驟一提取的數(shù)據(jù)作為待增強語音特征送入訓練好的語音增強模型，輸出得到相應的干凈語音特征估計；

步驟五：將步驟四所得到的待增強語音特征的干凈語音特征估計進行波形重構，恢復語音信號。

優(yōu)選地，步驟一具體為：

1)將原始的干凈語音數(shù)據(jù)和噪聲數(shù)據(jù)重采樣為16000hz；