[發(fā)明專利]語音分離方法和系統(tǒng)、電子設備及可讀存儲介質有效
| 申請?zhí)枺?/td> | 202110587646.4 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113393858B | 公開(公告)日: | 2022-12-02 |
| 發(fā)明(設計)人: | 陳孝良;李智勇 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 蔣娟 |
| 地址: | 100094 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 分離 方法 系統(tǒng) 電子設備 可讀 存儲 介質 | ||
本申請實施例提供一種語音分離方法和系統(tǒng)、電子設備及可讀存儲介質,其中該方法包括:對輸入的多通道語音進行特征提取,得到語音特征;將語音特征和波束集合分別輸入到語音分離模型,得到分離后的語音,波束集合包括基于麥克風陣列確定的若干個第一波束系數(shù);其中,語音分離模型是基于混合語音樣本數(shù)據(jù)、波束集合以及預先確定的干凈語音標簽進行訓練后得到。本申請實施例通過對輸入的多通道語音進行特征提取,再將語音特征和波束集合分別輸入到經過訓練后的語音分離模型,得到分離后的語音,訓練過程中對第一波束系數(shù)進行優(yōu)化,利用優(yōu)化后的波束系數(shù)以提高性能,可以有效地提高語音分離的效果,保證分離后的語音的質量。
技術領域
本申請涉及語音分離領域,尤其涉及一種語音分離方法和系統(tǒng)、電子設備及可讀存儲介質。
背景技術
在實際的應用場景中,由于麥克風中的信號可能包含目標講話人的聲音,其他人講話的聲音,噪聲和混響等干擾,不采用語音分離技術的話,會影響后期語音識別或者喚醒的準確率。因此利用語音分離技術,將目標講話人的信號從麥克風采集到的信號中分離出來,就可以提升語音識別或喚醒系統(tǒng)的魯棒性。
目前,語音分離技術存在語音分離效果不佳、分離后的語音質量較差的問題。相關技術中一般都是采用提取所述目標講話人的聲紋信息或者其他特征信息,連續(xù)凈化混合語音,以獲取分離語音,上述方法仍存在語音分離效果不佳的技術問題。
發(fā)明內容
本申請?zhí)峁┮环N語音分離方法和系統(tǒng)、電子設備及可讀存儲介質,用以解決現(xiàn)有技術中存在的技術缺陷。
本申請?zhí)峁┮环N語音分離方法,包括:
對輸入的多通道語音進行特征提取,得到語音特征;
將所述語音特征和波束集合分別輸入到語音分離模型,得到分離后的語音,所述波束集合包括基于麥克風陣列確定的若干個第一波束系數(shù);
其中,所述語音分離模型是基于混合語音樣本數(shù)據(jù)、所述波束集合以及預先確定的干凈語音標簽進行訓練后得到。
根據(jù)本申請實施例所述的語音分離方法,所述語音分離模型包括分離子模型和注意力選擇機制子模型,相應地,所述將所述語音特征和波束集合分別輸入到語音分離模型,得到分離后的語音包括:
將所述語音特征輸入到分離子模型,得到目標語音的Mask;
將波束集合和所述目標語音的Mask分別輸入到注意力選擇機制子模型,得到融合后的第二波束系數(shù);
基于所述語音特征和所述第二波束系數(shù),得到分離后的語音;
其中,所述分離子模型是基于混合語音樣本數(shù)據(jù)以及所述目標語音的Mask進行訓練后得到;所述注意力選擇機制子模型是基于所述分離后的語音、所述波束集合以及預先確定的干凈語音標簽進行訓練后得到。
根據(jù)本申請實施例所述的語音分離方法,所述注意力選擇機制子模型包括第一映射層和第二映射層,相應地,所述將波束集合和所述目標語音的Mask分別輸入到注意力選擇機制子模型,得到融合后的第二波束系數(shù)包括:
將所述目標語音的Mask輸入到所述第一映射層,得到映射后的Mask;
將所述波束集合輸入到所述第二映射層,得到若干個映射后的第一波束系數(shù),每一個映射后的第一波束系數(shù)與映射后的Mask在同一維度;
基于每一個映射后的第一波束系數(shù)和映射后的Mask,進行多類別分類,并基于所得到的各個映射后的第一波束系數(shù)的概率值及其所對應的所述若干個第一波束系數(shù),得到融合后的第二波束系數(shù)。
根據(jù)本申請實施例所述的語音分離方法,所述進行多類別分類包括:
按照每一個映射后的第一波束系數(shù)作為一個類別進行分類,各個映射后的第一波束系數(shù)類別值的概率和為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110587646.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





