[發明專利]面向麥克風陣列的通道注意力加權的語音增強方法在審
| 申請號: | 202011028613.8 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112151059A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 唐閨臣;孫世若;梁瑞宇;王青云;謝躍;包永強;鄒采榮 | 申請(專利權)人: | 南京工程學院 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0224;G10L25/30 |
| 代理公司: | 南京睿之博知識產權代理有限公司 32296 | 代理人: | 劉菊蘭 |
| 地址: | 211167 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 麥克風 陣列 通道 注意力 加權 語音 增強 方法 | ||
本發明公開了一種面向麥克風陣列的通道注意力加權的語音增強方法,方法包括:從麥克風陣列中的每個麥克風分別采集一路帶噪的語音時域信號;構建多通道語音增強模型;將麥克風陣每路帶噪語音的短時傅里葉變換頻譜作為多通道語音增強模型的輸入特征,對多通道語音增強模型進行預訓練;將麥克風陣列采集的多路含噪語音輸入到多通道語音增強模型,并用該多通道語音增強模型實現麥克風陣列語音增強。本發明采用U?NET網絡對語音頻譜特征進行處理,參數量少,計算復雜度較低,并在此基礎上對通道維度采用注意力機制加權操作,對于每一層編碼器和解碼器都在通道維度進行注意力加權,在深層結構模擬波束形成對特征進行加權,提高語音增強的性能。
技術領域
本發明涉及多通道語音增強技術領域,具體涉及一種面向麥克風陣列的通道注意力加權的語音增強方法。
背景技術
語音是現代通信的重要載體,語音增強的目的是利用信號處理的技術改善受到噪聲污染的語音可懂度與質量,其在語音信號處理中有著重要的應用,因而近些年,語音增強技術也受到了廣泛的關注。現實應用中錄制的語音信號總是會受到各種干擾與污染,如:各種類型的噪聲、混響、回聲等。這些干擾會顯著降低語音的可懂度,從而影響人類的聽感以及語音識別系統的準確性。因此,有效的語音增強技術對于語音信號處理的發展是至關重要的。
單通道語音增強算法實現較為簡單,但也存在一定缺點,例如,基于譜減法的語音增強方法會帶來音樂噪聲,且在語音質量和可懂度之間的矛盾在目前還沒有得到較好的解決。而麥克風陣列技術的應用不僅可以得到語音的時域和頻域信息,還可以得到語音信號的空域信息,合理利用它們可以在提高輸出語音信號的信噪比并減少語音信號的失真。
傳統的多通道語音增強方法包括波束形成,其中包含固定波束形成和自適應波束形成。固定波束形成算法首先計算對各個麥克風上進行時延補償以對齊麥克風信號,然后將各個麥克風接收到的信號進行加權求和。由于各通道的權值是為固定的常數,其對環境的適應性不強。相比于固定波束形成,自適應波束形成能夠根據環境的變化來自適應的調整各個通道語音的權值。Frost在1972首次提出基于線性約束最小方差(LinearlyConstrained Minimum Variance,LCMV)的自適應波束形成算法。LCMV可以直接在噪聲語音或者干擾語音方向直接陷零以消除這些與期望信號無關的信號。
近年來,隨著深度學習的發展,人們逐漸將這一技術應用到語音增強當中。通過神經網絡的增強語音通常能夠具有較好的語音清晰度和可懂度。基于深度學習的多通道語音增強技術已經取得了一些成果,但仍有很多問題需要解決。
在公開號為CN111524519A的發明專利中公開了采用高級特征融合的端到端多通道語音識別方法,采用傳統的注意力機制,在編碼器與解碼器之間對特征進行注意力加權;編碼器與解碼器采用雙向長短時記憶網絡,而本發明對于每一層編碼器和解碼器都在通道維度進行注意力加權,在深層結構模擬波束形成對特征進行加權,本發明基于卷積神經網絡的U-NET結構,參數量更少,計算復雜度較低,并且在解碼過程中通過跳躍連接將編碼器與解碼器對應層之間的輸出與輸入在通道維度上進行堆疊,有效地融合淺層與深層的信息。在注意力機制當中,本發明采用多頭注意力機制,在時間維度上對特征進行劃分處理,而參考發明本文在計算注意力分布時采用的是鍵值對模式,而參考發明采用普通模式;在計算得分函數時,本發明采用的是縮放點積模型,而參考發明采用加性模型。
發明內容
發明目的:針對現有技術中多麥克風直接采用波束形成造成語音增強質量較低的缺陷,本發明公開了一種面向麥克風陣列的通道注意力加權的語音增強方法,采用U-NET網絡對語音頻譜特征進行處理,參數量少,計算復雜度較低,并且在解碼過程中通過跳躍連接將編碼器與解碼器對應層之間的輸出與輸入在通道維度上進行堆疊,有效地融合淺層與深層的信息,并在此基礎上對通道維度采用注意力機制加權操作,對于每一層編碼器和解碼器都在通道維度進行注意力加權,在深層結構模擬波束形成對特征進行加權,提高語音增強的性能。
技術方案:為實現上述技術目的,本發明采用以下技術方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工程學院,未經南京工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011028613.8/2.html,轉載請聲明來源鉆瓜專利網。





