[發(fā)明專利]語音分離方法和系統(tǒng)、電子設備及可讀存儲介質有效

申請?zhí)枺?/td>	202110587646.4	申請日：	2021-05-27
公開（公告）號：	CN113393858B	公開（公告）日：	2022-12-02
發(fā)明（設計）人：	陳孝良;李智勇	申請（專利權）人：	北京聲智科技有限公司
主分類號：	G10L21/0272	分類號：	G10L21/0272;G10L25/27
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	蔣娟
地址：	100094 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音分離方法系統(tǒng) 電子設備可讀存儲介質
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供一種語音分離方法和系統(tǒng)、電子設備及可讀存儲介質，其中該方法包括：對輸入的多通道語音進行特征提取，得到語音特征；將語音特征和波束集合分別輸入到語音分離模型，得到分離后的語音，波束集合包括基于麥克風陣列確定的若干個第一波束系數(shù)；其中，語音分離模型是基于混合語音樣本數(shù)據(jù)、波束集合以及預先確定的干凈語音標簽進行訓練后得到。本申請實施例通過對輸入的多通道語音進行特征提取，再將語音特征和波束集合分別輸入到經過訓練后的語音分離模型，得到分離后的語音，訓練過程中對第一波束系數(shù)進行優(yōu)化，利用優(yōu)化后的波束系數(shù)以提高性能，可以有效地提高語音分離的效果，保證分離后的語音的質量。

技術領域

本申請涉及語音分離領域，尤其涉及一種語音分離方法和系統(tǒng)、電子設備及可讀存儲介質。

背景技術

在實際的應用場景中，由于麥克風中的信號可能包含目標講話人的聲音，其他人講話的聲音，噪聲和混響等干擾，不采用語音分離技術的話，會影響后期語音識別或者喚醒的準確率。因此利用語音分離技術，將目標講話人的信號從麥克風采集到的信號中分離出來，就可以提升語音識別或喚醒系統(tǒng)的魯棒性。

目前，語音分離技術存在語音分離效果不佳、分離后的語音質量較差的問題。相關技術中一般都是采用提取所述目標講話人的聲紋信息或者其他特征信息，連續(xù)凈化混合語音，以獲取分離語音，上述方法仍存在語音分離效果不佳的技術問題。

發(fā)明內容

本申請?zhí)峁┮环N語音分離方法和系統(tǒng)、電子設備及可讀存儲介質，用以解決現(xiàn)有技術中存在的技術缺陷。

本申請?zhí)峁┮环N語音分離方法，包括：

對輸入的多通道語音進行特征提取，得到語音特征；

將所述語音特征和波束集合分別輸入到語音分離模型，得到分離后的語音，所述波束集合包括基于麥克風陣列確定的若干個第一波束系數(shù)；

其中，所述語音分離模型是基于混合語音樣本數(shù)據(jù)、所述波束集合以及預先確定的干凈語音標簽進行訓練后得到。

根據(jù)本申請實施例所述的語音分離方法，所述語音分離模型包括分離子模型和注意力選擇機制子模型，相應地，所述將所述語音特征和波束集合分別輸入到語音分離模型，得到分離后的語音包括：

將所述語音特征輸入到分離子模型，得到目標語音的Mask；

將波束集合和所述目標語音的Mask分別輸入到注意力選擇機制子模型，得到融合后的第二波束系數(shù)；

基于所述語音特征和所述第二波束系數(shù)，得到分離后的語音；

其中，所述分離子模型是基于混合語音樣本數(shù)據(jù)以及所述目標語音的Mask進行訓練后得到；所述注意力選擇機制子模型是基于所述分離后的語音、所述波束集合以及預先確定的干凈語音標簽進行訓練后得到。

根據(jù)本申請實施例所述的語音分離方法，所述注意力選擇機制子模型包括第一映射層和第二映射層，相應地，所述將波束集合和所述目標語音的Mask分別輸入到注意力選擇機制子模型，得到融合后的第二波束系數(shù)包括：

將所述目標語音的Mask輸入到所述第一映射層，得到映射后的Mask；

將所述波束集合輸入到所述第二映射層，得到若干個映射后的第一波束系數(shù)，每一個映射后的第一波束系數(shù)與映射后的Mask在同一維度；

基于每一個映射后的第一波束系數(shù)和映射后的Mask，進行多類別分類，并基于所得到的各個映射后的第一波束系數(shù)的概率值及其所對應的所述若干個第一波束系數(shù)，得到融合后的第二波束系數(shù)。

根據(jù)本申請實施例所述的語音分離方法，所述進行多類別分類包括：

按照每一個映射后的第一波束系數(shù)作為一個類別進行分類，各個映射后的第一波束系數(shù)類別值的概率和為1。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司，未經北京聲智科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110587646.4/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：基于PDMS的峰值連續(xù)可變導模共振濾光片及制備方法
下一篇：一種分散式供電故障恢復方法及裝置

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】