[發明專利]一種聲源分離的方法及聲源分離裝置在審
| 申請號: | 202210567042.8 | 申請日: | 2022-05-23 |
| 公開(公告)號: | CN115116465A | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 馬潤澤;徐樹公 | 申請(專利權)人: | 佛山智優人科技有限公司;上海大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0216;G10L21/028 |
| 代理公司: | 廣東廣盈專利商標事務所(普通合伙) 44339 | 代理人: | 李俊 |
| 地址: | 528311 廣東省佛山市順*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聲源 分離 方法 裝置 | ||
本發明公開了一種聲源分離的方法及聲源分離裝置,其方法包括:基于麥克風陣列采集空間聲場中的聲音,將空氣中聲波在麥克風陣列中不同麥克風位置產生的機械能轉化為對應多通道電信號進行輸出;對多通道電信號進行聲源分離處理,得到分離后的各聲源信號;基于揚聲器陣列對分離后的各聲源信號進行回放。本發明基于空間聲場特性推演的聲源分離主體框架,利用深度神經網絡的直接式估計來取代對空間聲場特性的迭代式估計,降低計算復雜度。
技術領域
本發明涉及計算機技術領域,尤其涉及一種聲源分離的方法及聲源分離裝置。
背景技術
聲源分離算法是音頻信號處理中非常重要的一類算法,其目的是為了將音頻信號當中的不同聲源的信號進行分離,以得到每個聲源的獨立信號。這類算法可以用于聲源定位、聲源分類、說話人識別以及語音增強等多種場景。對于不同的收音條件,聲源分離算法的實現方式可略有不同。主要包括基于深度神經網絡的方法和基于空間聲場特性推演的方法。對于單個麥克風收音的條件,通常采用深度神經網絡來實現;對于多個麥克風組成的麥克風陣列,目前可以采用深度神經網絡的方法實現,也可利用不同麥克風之間的細小差異來推演聲源對于麥克風陣列的空間聲場特性,從而在空間上對不同位置的聲源的信號進行分離。
圖1為現有技術中基于非負矩陣分解和空間協方差矩陣估計的聲源分離算法的方法流程圖,其為基于聲源信號非高斯性假設的一種迭代式算法。其中非負矩陣分解用于在迭代中估計聲源的功率譜特征,可以理解為聲源的信號特征;空間協方差矩陣則與不同聲源到達麥克風陣列時在不同通道之間的相位差異相關,對于不同位置的聲源,這種算法中的空間協方差矩陣也是不同的,意味著其反映了聲源的空間位置。該方法通過一種基于非高斯性測量的損失函數為依據,更新每個聲源的非負矩陣分解參數,從而得到對應聲源的功率譜密度特征,再由此更新空間協方差矩陣的參數,從而得到新的多通道維納濾波器的系數,對麥克風陣列信號進行濾波之后即可得到各聲源分離信號。每一次迭代當中,都會將上一次得到的分離信號作為新的輸入,重復上面的過程,來使損失函數逐漸收斂,最終達到較好的分離效果。
基于空間聲場特性推演的迭代式算法需要進行多次迭代才可使損失函數收斂。并且每次迭代中的參數更新都需要進行大量的矩陣運算和矩陣求逆等操作,運算難度較大。導致整體運算時常難以用來設計一個實際可用的系統。而且對于不同的信號,其所需要的迭代次數不盡相同,導致我們很難預設一個既有效率、又可以保證性能的迭代次數。在實際算法部署的時候這也是一個較難設計的參數。
圖2為現有技術中基于深度神經網絡的端到端的多通道語音分離算法的方法流程圖,首先將麥克風陣列信號的第一通道送入編碼器進行編碼得到特征圖,同時對麥克風陣列信號的全部通道進行特征提取,計算通道間相位差。將通道間相位差和編碼器得到的音頻特征圖進行拼接,送入分離器,得到用于分離的掩碼參數。將這組掩碼參數應用回編碼器得到的特征圖,則可以得到分離之后的不同聲源對應的特征圖。將他們分別送入解碼器,則可以得到對應的聲源分離結果。其中編碼器、分離器、解碼器都是可學習的深度神經網絡;特征提取部分在現有技術二中有短時傅里葉變換和可學習一維卷積的兩種不同實現。在訓練過程中,通過仿真手段得到多通道麥克風陣列信號和各聲源原始信號。訓練得到分離結果與原始信號進行對比,從而對網絡中各部分參數進行更新。
這種基于深度神經網絡的端到端的多通道語音分離算法是一種端到端的、數據驅動的聲源分離方法。在分離過程當中,對信號的統計特性沒有約束,算法中的每一個模塊性能都由訓練數據的分布來決定。對于訓練過程中數據沒有覆蓋到的情況,較難保證其分離性能,穩健性不佳。
發明內容
本發明的目的在于克服現有技術的不足,本發明提供了一種聲源分離的方法及聲源分離裝置,基于空間聲場特性推演的聲源分離主體框架,利用深度神經網絡的直接式估計來取代對空間聲場特性的迭代式估計,降低計算復雜度。
為了解決上述問題,本發明提出了一種聲源分離的方法,所述方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山智優人科技有限公司;上海大學,未經佛山智優人科技有限公司;上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210567042.8/2.html,轉載請聲明來源鉆瓜專利網。





