[發明專利]語音增強方法、語音識別方法、說話人識別方法和系統有效
| 申請號: | 202310238080.3 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116092501B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 柯登峰;聶帥;劉文舉;梁山;羅琪;胡睿欣;姚文翰;舒文濤;王運峰 | 申請(專利權)人: | 深圳市瑋歐科技有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L21/0232;G10L21/0264 |
| 代理公司: | 北京天盾知識產權代理有限公司 11421 | 代理人: | 姜有保 |
| 地址: | 518081 廣東省深圳市鹽田區海山街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 增強 方法 識別 說話 系統 | ||
本發明涉及語音識別技術領域,具體公開了一種語音增強方法、語音識別方法、說話人識別方法和系統,包括基于純凈語音、純凈噪聲和散射噪聲生成雙麥遠場帶噪語音;基于純凈語音生成多個目標語音,并記錄多個目標語音方位;將空間方位均勻地劃分為若干個目標區域;基于若干個目標區域對多個目標語音方位進行標簽化,獲得標簽化目標語音方位;從標簽化目標語音方位提取雙麥遠場帶噪語音的特征,以獲得每個目標區域的特征;構建掩蔽神經語音增強模型;基于每個目標區域的特征、目標語音以及標簽化目標語音方位訓練掩蔽神經語音增強模型,基于訓練好的掩蔽神經語音增強模型增強語音信號;該方法對目標語音方向進行選擇性關注,實現語音增強。
技術領域
本發明涉及麥克風陣列的多通道語音識別技術領域,具體涉及一種語音增強方法、語音識別方法、說話人識別方法和系統。
背景技術
在遠場條件下,語音信號容易受到噪聲和混響的干擾,極大地影響了語音通話和語音識別等應用的性能;相對于單聲道語音增強,多聲道語音增強被證明能夠顯著提升語音的可懂度、感知質量和遠場語音識別的性能;然而在目標語音的聲源方位未知或者移動的場景,目標語音增強依然是一個極具挑戰的任務。盡管有許多語音增強方法不需要事先知道目標聲源的方位,比如MVDR和PMWF等,但它們的性能嚴重依賴于每個頻帶的協方差矩陣的估計以及其逆矩陣的計算,這個過程通常是非常困難而且費時的。
目標語音的方位是提升語音增強性能的重要線索;一方面,指向性波束形成技術有能力增強目標方向的信號而壓制來自其他方向的信號,其被證明壓制噪聲的同時能有效避免語音畸變并顯著提升語音識別的性能;另一方面,當目標聲源方位已知時,許多方向信息能夠被挖掘來提升語音增強的性能;因此,在許多語音增強系統中,聲源方位估計通常被視為不可或缺的重要組成模塊。這些系統通常在語音增強之前利用一段信號進行聲源定位,比如喚醒詞音頻片段;然而,實時的聲源定位非常困難,特別是在混響或聲源移動的場景,聲源定位更加困難;當聲源方位估計不準確的時候,語音增強的性能會急劇下降。
對聲源方位未知或者聲源移動的場景,空間注意力機制能夠實現對目標聲源方位的選擇性關注,是解決聲源方位未知場景下目標語音增強的一個有潛力的方案。然而現有的空間注意力機制缺乏有效的目標引導,導致聲源方位的選擇性關注不準確、不穩定;因此,有必要研究目標方向引導的空間注意力機來提高空間注意力的性能,實現目標方向未知場景下的多通道語音增強。
發明內容
針對上述問題,本發明的一個目的是提供一種語音增強方法,該方法利用目標語音引導空間注意力對目標語音方向進行選擇性關注,并對多個采樣空間所提取的方向信息和頻譜信息進行加權融合,最終實現目標語音方向的語音信號增強。
本發明的第二個目的是提供一種語音增強系統。
本發明的第三個目的是提供一種語音識別方法,該方法中采用了語音增強系統和語音識別模型(即語音識別模塊);語音增強系統利用目標語音引導空間注意力對目標語音方向進行選擇性關注,并對多個采樣空間所提取的方向信息和頻譜信息進行加權融合,最終實現目標語音方向的語音信號增強。
本發明的第四個目的是提供一種語音識別系統。
本發明第五個目的是提供一種說話人識別方法,該方法中采用了語音增強系統和說話人識別模型(即說話人識別模塊);語音增強系統利用目標語音引導空間注意力對目標語音方向進行選擇性關注,并對多個采樣空間所提取的方向信息和頻譜信息進行加權融合,最終實現目標語音方向的語音信號增強。
本發明的第六個目的是提供一種說話人識別系統。
本發明所采用的第一個技術方案是:一種語音增強方法,包括以下步驟:
S100:基于純凈語音、純凈噪聲和散射噪聲生成雙麥遠場帶噪語音;以及基于純凈語音生成多個目標語音,并記錄多個目標語音方位;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市瑋歐科技有限公司,未經深圳市瑋歐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310238080.3/2.html,轉載請聲明來源鉆瓜專利網。





