[發明專利]一種基于混合式概率模型的多通道聲源分離方法有效
| 申請號: | 201911257725.8 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN112951264B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 張鵬遠;陳航艇;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0232;G10L21/0216;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合式 概率 模型 通道 聲源 分離 方法 | ||
本發明公開了一種基于混合式概率模型的多通道聲源分離方法,所述方法包括:計算待分離的多聲源信號的短時傅里葉頻譜,基于預先建立的深度聚類網絡提取每個時頻點的聲源嵌入向量;將聲源嵌入向量輸入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收斂后輸出每個時頻點的各聲源出現概率;利用各聲源出現概率計算噪聲能量密度矩陣和目標聲源導向矢量;計算波束形成系數;利用短時傅里葉頻譜、各聲源出現概率和波束形成系數,還原各聲源對應的增強后信號的頻譜。
技術領域
本發明涉及語音分離領域,特別涉及一種基于混合式概率模型的多通道聲源分離方法。
背景技術
多通道語音分離是從輸入的包含有多個說話人的多通道音頻中分離出不同的說話人,能夠直接地提升語音的可懂度,有利于包括語音識別在內的后端處理。
傳統的多通道語音分離方法一般是基于空間信息,當說話人稀疏地分布在空間中的不同位置,可以有效地分離不同方向的聲源,但是無法分離聚集在一起的說話人。
發明內容
本發明的目的在于克服傳統多通道聲源分離中過度依賴于空間信息,無法分離分布于同一位置說話人的問題,通過引入混合式概率模型,同時建模說話人頻譜信息和空間信息,提出了一種基于混合式概率模型的多通道聲源分離方法,在遇到未出現過的說話人時也能起到分離的效果。
為了實現上述目的,本發明提供了一種基于混合式概率模型的多通道聲源分離方法,所述方法包括:
計算待分離的多聲源信號的短時傅里葉頻譜,基于預先建立的深度聚類網絡提取每個時頻點的聲源嵌入向量;
將聲源嵌入向量輸入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收斂后輸出每個時頻點的各聲源出現概率;
利用各聲源出現概率計算噪聲能量密度矩陣和目標聲源導向矢量;
計算波束形成系數;
利用短時傅里葉頻譜、各聲源出現概率和波束形成系數,還原各聲源對應的增強后信號的頻譜。
作為上述方法的一種改進,所述深度聚類網絡包括2層雙向長短時記憶網絡,1層隨機失活,1層線性層和1層非線性層;該網絡的輸入為音頻信號的對數能量譜聲學特征,所述雙向長短時記憶網絡每個方向包括600個神經元,隨機失活的系數為0.5,線性層輸入為1200維,輸出為20維,最后一層的非線性層輸出嵌入向量,使用雙曲正切函數,其表達式為:
其中,x是非線性層的輸入;
將嵌入向量歸一化為單位向量,其表達式為:
其中,為歸一化前的向量,為計算的2范數,為輸出的歸一化后的嵌入向量。
作為上述方法的一種改進,所述方法還包括對深度聚類網絡進行訓練的步驟,具體包括
構建訓練深度聚類網絡的訓練樣本集;
提取訓練樣本集的音頻信號的對數能量譜聲學特征,并計算均值方差系數,對其做歸一化:
對每個通道的語音分別分幀加窗、對每一幀計算傅里葉變換得到頻譜、計算頻譜的對數能量、將各個通道的特征堆疊;此特征的維度為T×M×F,其中M為通道數,T為幀數,由窗長和窗移決定,F為頻點數,等于傅里葉變換長度的一半加1;
深度聚類網絡的學習目標為關聯矩陣U=(uij)1≥i<TF,1≤j<TF,其每個元素uij代表第i個和第j個時頻點是否屬于同一個聲源,如果屬于同一個聲源則等于1,否則為0;深度聚類網絡的輸出為V=(vij)1≤i<TF,1≤j<TF,其中
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911257725.8/2.html,轉載請聲明來源鉆瓜專利網。





