[發明專利]基于卷積循環神經網絡的單通道人聲與背景聲分離方法有效
| 申請號: | 202011119804.5 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112259120B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 孫超 | 申請(專利權)人: | 南京硅基智能科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/18;G10L25/30;G10L25/45 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 盧華強 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 循環 神經網絡 通道 人聲 背景 分離 方法 | ||
本發明公開了一種基于卷積循環神經網絡的單通道人聲與背景聲分離方法,包括步驟:S1、獲取原始混合語音信號;S2、得到原始混合信號幅度譜和原始混合信號相位譜;S3、將原始混合信號幅度譜輸入卷積神經網絡;S4、將低分辨率特征圖和原始混合信號幅度譜輸入循環神經網絡,結合時頻掩模得到人聲經過時頻掩模后的預測值和背景聲經過時頻掩模后的預測值;S5、將人聲經過時頻掩模后的預測值和背景聲經過時頻掩模后的預測值分別與原始混合信號相位譜結合,得到預測人聲信號和預測背景聲信號。與現有技術相比,本發明提供的分離方法,能捕獲語音的時間域和頻率域信息,并生成的多尺度特征分離混合語音的人聲信號和背景聲信號。
技術領域
本發明涉及人聲與背景聲分離,具體是基于卷積循環神經網絡的單通道人聲與背景聲分離方法。
背景技術
語音分離的目的是從背景干擾中分離出目標語音,由于麥克風采集到的聲音中可能包括噪聲、其他人說話的聲音,背景音樂等干擾項,不做語音分離直接進行識別的話,會影響到識別的準確率。因此分離識別出的源在人聲,在自動語音識別等信號處理領域有重要價值,單通道下的人聲與背景音樂分離是語音分離中一個基礎而重要的分支。
近些年來,隨著軟硬件性能的提高和機器學習算法的普及,深度學習漸漸在自然語言處理和圖像等領域上展示了極高的效果。基于深度學習的語音分離,是從訓練數據中學習語音、說話人和噪音的特征,構建整體的神經網絡從而實現語音分離的目標。語音信息可以同時體現在時間域和頻率域,語音的時間域和頻率域信息都是寶貴的特征信息,但是對于語音分離來說,大部分深度學習的方法都是利用單一的卷積神經網絡或者循環神經網絡來進行分離,還沒有統一的可泛化通用的框架來進行語音分離,無法準確提取混合語音中的時間域和頻率域信息,混合語音的人聲與背景聲分離效果差。
發明內容
本發明的目的在于克服現有技術無法準確提取語音中的時間域和頻率域信息,混合語音中人聲與背景聲分離效果差的不足,提供了一種基于卷積循環神經網絡的單通道人聲與背景聲分離方法,通過在卷積神經網絡中設計了兩種不同大小的卷積核,捕獲語音的時間域和頻率域信息,同時進行特征降維和提取其局部特征并與原始混合信號幅度譜結合成的多尺度特征輸入循環神經網絡中,能準確分離混合語音的人聲信號和背景聲信號。
本發明的目的主要通過以下技術方案實現:
基于卷積循環神經網絡的單通道人聲與背景聲分離方法,包括步驟:
S1、獲取原始混合語音信號,所述原始混合語音信號為單通道的人聲、背景聲的混合信號;
S2、將獲取的原始混合語音信號經過分幀加窗、時頻轉換,得到原始混合信號幅度譜和原始混合信號相位譜;
S3、將原始混合信號幅度譜輸入卷積神經網絡,所述卷積神經網絡包括依序設置的卷積層和池化層;卷積層獲取原始混合信號幅度譜的局部特征,池化層對特征進行降維,轉換為低分辨率特征圖并輸出;所述卷積層包括兩層,且兩層卷積層中的卷積核大小不同;
S4、將低分辨率特征圖和原始混合信號幅度譜輸入循環神經網絡,結合時頻掩模得到人聲經過時頻掩模后的預測值和背景聲經過時頻掩模后的預測值;
S5、將人聲經過時頻掩模后的預測值和背景聲經過時頻掩模后的預測值分別與原始混合信號相位譜結合,并分別經過逆傅里葉變換得到預測人聲信號和預測背景聲信號;
所述卷積神經網絡和循環神經網絡均設有原始混合信號幅度譜通道。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京硅基智能科技有限公司,未經南京硅基智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011119804.5/2.html,轉載請聲明來源鉆瓜專利網。





