[發明專利]基于強約束字典和深度神經網絡的兩階段單通道語音分離方法在審
| 申請號: | 202210532215.2 | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114898769A | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 孫林慧;龔艾飛;袁碩;步云怡 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/30 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 葉江栩 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 約束 字典 深度 神經網絡 階段 通道 語音 分離 方法 | ||
本發明公開了一種基于強約束字典和深度神經網絡的兩階段單通道語音分離方法。首先,基于字典學習的語音分離方法常出現“交叉投影”問題,本發明提出了強約束的優化函數,在此函數約束下構建更具有區分性的聯合字典,來減少“交叉投影”。其次,為了提高兩個相似信號的分離效果,本發明提出兩階段單通道語音分離方法,第一階段利用強約束字典實現語音分離,得到初步估計信號。第二階段利用映射能力強的深度神經網絡,通過聯合約束實現語音與交叉投影殘余的分離,去除交叉投影殘余的影響,得到精細估計信號。本發明實現了對語音分離系統性能的提升,使系統分離出的語音在五種測量指標上均有提升,適用于智能人機交互。
技術領域
本發明屬于語音分離技術領域,具體涉及一種基于強約束字典和深度神經網絡的兩階段單通道語音分離方法。
背景技術
日常生活中涉及到語音分離技術的產品越來越多,如手機、助聽器、智能家居控制系統、軍用對講機等,隨著通信技術的快速發展,人們對這些產品的語音質量有了更高的追求。如何從被干擾的語音中最大限度地獲取純凈語音信號或將干擾信號的影響最小化是語音分離領域的研究重點內容之一。國內外眾多學者對語音分離問題進行研究,提出了許多不同的方法。早期的傳統信號處理方法有譜減法和維納濾波器,這些方法通常適用于連續平穩的高信噪比環境。在此基礎上提出的基于模型的方法根據源信號和混合過程構建模型,以數學推導的方式推算得到估計的源信號,如基于隱馬爾科夫模型和高斯混合模型的方法都取得不錯的效果。另外,NMF方法通過建立混合信號到目標信號的線性映射,也廣泛應用于語音分離領域,但是信號結構復雜時并不能很好地表達。
基于字典的信號稀疏表示方法也常用來解決語音分離問題,信號稀疏表示就是用盡可能少的過完備字典原子來表示信號,學者們主要在字典構造方法和信號稀疏分解算法方面進行重點研究。Aharon等人最早提出了K-SVD算法,在該算法基礎上一些學者通過增加字典約束條件來優化分離性能。Sigg等人利用干凈語音信號和干擾信號分別訓練得到語音字典和干擾字典,將兩個字典拼接成聯合字典進行稀疏編碼,從混合語音分離純凈語音取得了較好的性能。Zhang等人研究了語音信號間的關聯和字典間的交叉干擾,提出了一種將語音字典和干擾字典聯合學習的語音增強方法,能減少源失真和混淆,提高語音質量,且在輸入信噪比較低時增強效果更為明顯。Tian等人提出了一種基于學習字典的源分離方法,將公共子字典合并到常規的聯合字典中,以確保特定源的子字典能捕獲對應源的判別信息,并且設計了一種任務驅動學習算法來優化所提出的聯合字典和用于分配公共信息的權重,實驗結果表明該算法可以獲得比傳統算法更好的分離性能。
近年來,深度學習技術憑借其強大的學習能力在語音分離領域日益突出。基于深度學習的語音分離通過訓練學習混合信號與目標信號之間的非線性映射關系,這種方法不需要大量的先驗知識,而且在低信噪比或非平穩信號環境下仍然有不錯的泛化能力。Geoffrey Hinton教授對傳統的神經網絡算法進行了優化,最早提出了深度神經網絡的概念。Han等人提出了通過訓練DNN從受損語音的幅度譜中學習干凈語音的幅度譜,達到去混響和去噪的目的。在訓練DNN時,不同的訓練目標會影響網絡模型的分離效果,Wang等人分析比較了常用的訓練目標包括IBM和IRM等的增強效果,整體上掩蔽技術取得了較好的效果。Li等人提出了一種頻譜變化感知損失函數的DNN語音分離算法,結果表明所提出的損失函數能提高語音清晰度和信噪比增益。我們團隊提出的聯合約束算法不僅懲罰殘差平方和,而且利用輸出之間的聯合關系來訓練雙輸出DNN,與基本損失函數相比該方法能獲得更好的性能。
發明內容
本發明所要解決的技術問題是克服現有技術的不足,提供一種基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,第一階段進行初步估計,利用強約束字典學習實現語音與語音的分離,獲取信號的粗略估計。第二階段進行精細估計,利用映射能力強的DNN對第一階段分離重構信號進行增強,通過聯合約束實現語音與交叉投影殘余的分離,使得最終估計的信號與目標信號更接近,從而提高分離語音的質量。
本發明提供一種基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,包括如下步驟,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210532215.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型海上石油回收裝置
- 下一篇:一種高性能的摩托車四缸節氣門體





