[發明專利]基于卷積神經網絡的單通道聲音分離方法有效
| 申請號: | 201710821803.7 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107680611B | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 段惠萍;梁瀚明;張新月;方俊 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 通道 聲音 分離 方法 | ||
本發明公開了一種基于卷積神經網絡的單通道聲音分離方法,屬于聲音信號處理、人工智能技術領域。本發明首先提出了基于卷積神經網絡的單通道聲音分離方法的處理框架,該框架由短時傅里葉變換、卷積神經網絡、時頻掩膜、逆短時傅里葉變換組成。其中卷積神經網絡包含卷積層、池化層、融合層以及上采樣層。本發明利用卷積神經網絡擅長于挖掘二維數據空間特征的特性,在神經網絡層數方面,增加模型的層數;在神經網絡結構方面,本發明提出一個包含編碼階段和解碼階段的卷積神經網絡結構。在單通道聲音分離領域,本發明較之基線模型在分離指標上得到了極大提升,同時大大降低了神經網絡參數的數目。
技術領域
本發明屬于聲音信號處理、人工智能技術領域,具體涉及單通道聲音分離方法。
背景技術
單通道聲音分離問題是指從單通道混合聲音信號中分離出混合前的原始聲音信號。在卡拉OK游戲中,聲音分離算法能夠從音樂中分離出伴奏;在助聽器中,從混合信號中分離出人聲能夠提高聲音的可懂度;在語音識別算法中,從混合信號中分離出人聲能夠降低語音識別的錯字率,因此單通道聲音分離有極其重要的研究和實用價值。
卷積神經網絡于20世紀90年代提出,直到2012年在ImageNet大規模圖像識別競賽獲得成功,卷積神經網絡才被廣泛應用到圖像、語音等各個領域。在圖像數據中,局部圖像往往具有很高的相關性,能夠構成可鑒別的基本圖案。卷積神經網絡充分利用了這一特性,每一層只與前一層一小塊神經元鏈接。局部連接大大降低了神經網絡參數的數量,并具有更好的泛化性能。聲音信號經過短時傅里葉變換以后得到時頻圖,時頻圖也是一種類似于圖像的二維數據,因此同樣可以使用卷積神經網絡來實現單通道聲音分離。
在單通道語音分離領域,最常用的方法是非負矩陣分解和穩健主成分分析。基于非負矩陣分解的方法會假設聲音信號的時頻圖是低秩的;基于穩健主成分分析的方法會假設一種原始聲音信號的時頻圖是低秩的,另一種原始聲音信號的時頻圖是稀疏的。然而在真實的復雜環境中,這些假設并不完全準確。
發明內容
本發明的發明目的在于:針對上述存在的問題,提供一種基于卷積神經網絡的聲音分離方法,來提升聲音分離的效果,以解決當前實際應用場景下聲音分離的問題。
本發明首先提出了一個全新的基于卷積神經網絡的聲音分離框架,此框架能夠充分利用聲音信號在時頻圖中的重復性。
本發明提出的聲音分離方法,采用上述基于卷積神經網絡的框架,首先對聲音信號進行預處理得到時頻圖,使用時頻圖構建訓練數據,然后訓練卷積神經網絡模型,最后通過卷積神經網絡模型預測原始聲音信號的時頻圖,從預測的原始聲音信號的時頻圖中恢復出原始聲音信號。具體包括3個過程:構建訓練數據、訓練卷積神經網絡、使用已訓練模型進行分離。
本發明的基于卷積神經網絡的聲音分離方法,包括下列步驟:
步驟1、構建訓練數據:
101:對每一原始聲音信號進行短時傅里葉變換得到原始聲音信號時頻圖S(t,f),其中t表示時間,f表示頻率;
102:對原始聲音信號進行混合得到混合聲音信號,并對混合聲音信號進行短時傅里葉變換得到混合聲音信號時頻圖Y(t,f);
103:由原始聲音信號時頻圖和混合聲音信號時頻圖構建理想二值掩膜:
步驟2、訓練卷積神經網絡模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710821803.7/2.html,轉載請聲明來源鉆瓜專利網。





