[發明專利]一種基于子帶分解的在線聲源分離增強系統有效
| 申請號: | 202010090988.0 | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111312275B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 王鶴;陳喆;殷福亮 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L21/0216;G10L25/24;G10L17/00;G10L17/02;G10L17/04;G10L25/78;G10L25/84 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分解 在線 聲源 分離 增強 系統 | ||
本發明公開了一種基于子帶分解的在線聲源分離增強系統,具體包括子帶分解模塊、語音活動檢測模塊、特征提取模塊、說話人識別模塊、參數估計模塊、聲源分離模塊、后置濾波模塊和子帶合成模塊。該系統利用識別出的說話人單獨發聲的片段估計對應聲源的相對傳遞函數RTF,實現了實時的相對傳遞函數RTF估計,同時降低了其他聲源信號對某個特定聲源相對傳遞函數RTF估計的干擾;同時該系統提高了傳統KNN說話人識別的準確率,并且在噪聲干擾較大時也能有較高的識別準確率。
技術領域
本發明涉及語音信號處理技術領域,尤其涉及一種基于子帶分解的在線聲源分離增強系統。
背景技術
語音交流是人類生活中必不可少的一部分,語音表達的信息比文字更加直接。近年來,智能手機、智能音箱等可以進行人機交互的智能設備得到了廣泛應用,這些設備可以識別人們發出的交互指令,方便了人們的生活。但是,當有多個人(一般為2~4個)同時講話時,因為語音間的相互干擾,導致智能設備的語音識別率明顯降低,因此,需要將多個聲源同時發出的語音分離出來,智能設備才能對特定聲源發出的語音進行識別。
Markovich等在文獻[1]中提出一種可以抑制多個語音干擾源的語音增強方法,該方法采用廣義旁瓣消除(GSC)架構實現,如圖1所示,分為三部分:固定波束形成器(FBF)、阻塞矩陣(BM)和自適應噪聲消除器(ANC),FBF將信號延遲求和得到初步增強的單路信號,BM利用目標聲源和干擾聲源的聲傳遞函數實現,能使干擾信號和噪聲源通過,阻止目標聲源信號通過,ANC采用自適應的方法進一步抑制干擾和噪聲信號。但是文獻[1]的缺陷是使用一個GSC波束形成器只能增強單個特定聲源的信號,抑制其他方向的干擾和噪聲。若要同時分離出多個不同聲源的信號,需要用多個不同的波束形成器,計算量較大。
Schwartz等在文獻[2]提出一種基于最小均方誤差(MMSE)準則的多聲源分離方法,通過求解使各個聲源的期望信號與實際分離出信號之間均方誤差最小的約束優化問題得到各個頻帶上的最優濾波器,該濾波器可分解成一個多聲源GSC波束形成器和一個后置濾波器,對麥克風陣列接收到的信號進行多聲源波束形成和后置濾波得到分離后的各個聲源信號。其中,波束形成器利用各個聲源的聲傳遞函數導出。其中文獻[2]是的缺陷是估計聲傳遞函數需要利用各個聲源單獨發聲的語音片段,因此,在估計之前要人工手動標記出各個聲源單獨發聲的片段,無法實時處理,進而不能實現在線聲源分離。
因此傳統的基于波束形成的聲源分離方法在估計某個特定聲源的參數時,需要提前標記出各個聲源單獨發聲的語音片段,無法實現實時的參數估計和聲源分離。另一方面,傳統波束形成方法只能增強某一聲源方向的信號,同時抑制其它方向的干擾和噪聲信號,不能同時分離出多個聲源的信號。
發明內容
針對上述問題,本發明提出一種基于子帶分解的在線聲源分離增強系統,該系統利用說話人識別技術識別出各個聲源單獨發聲的片段,然后實時估計出各個聲源對于所有麥克風的相對傳遞函數(RTF),利用多說話人線性約束最小方差(LCMV)方法同時分離出各個聲源的語音信號,最后采用多聲源維納后置濾波(MWPF)方法抑制各個聲源語音信號中的殘留噪聲,提高分離出的各個語音信號的信干噪比(SINR)。該系統具體包括:
子帶分解模塊,對麥克風接收到的信號進行分幀和緩存處理得到緩存信號,對緩存信號進行子帶分解得到子帶信號;
語音活動檢測模塊,接收子帶分解模塊傳送的子帶信號,利用子帶信號估計臨界頻帶信噪比,對所有臨界頻帶上信噪比求和得到當前幀信號的總信噪比,如果總信噪比大于信噪比閾值則判斷當前幀的子帶信號為語音并輸出,否則,判斷當前幀的子帶信號為噪聲并更新噪聲的臨界頻帶能量同時輸出噪聲子帶信號;
特征提取模塊,接收語音活動檢測模塊輸出的語音子帶信號、提取該子帶信號的梅爾倒譜系數,先提取訓練時間段的子帶信號的特征作為訓練特征,在識別階段提取待識別子帶信號的特征作為待識別特征;
說話人識別模塊,在識別階段利用K最近鄰算法將待識別特征與訓練特征比較得到語音子帶信號的說話人標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010090988.0/2.html,轉載請聲明來源鉆瓜專利網。





