[發明專利]語音分離方法、語音分離裝置、電子設備及存儲介質有效
| 申請號: | 202110237579.3 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN112634875B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 史王雷;王秋明 | 申請(專利權)人: | 北京遠鑒信息技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/183;G10L15/26;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 武慧南 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 分離 方法 裝置 電子設備 存儲 介質 | ||
1.一種語音分離方法,其特征在于,所述語音分離方法包括:
獲取原始音頻,并以時間窗口滑窗的方式從所述原始音頻中提取語譜圖特征序列;
將所述語譜圖特征序列輸入到預先訓練好的語音分割模型中,通過所述語音分割模型獲取嵌入特征序列;
將所述嵌入特征序列輸入到預先訓練好的語音聚類模型中,通過所述語音聚類模型獲得與所述嵌入特征序列對應的預測標簽序列;
根據所述預測標簽序列進行單個說話人語音還原,生成分離的語音,
其中,通過以下方式訓練語音聚類模型:
獲取多組原始音頻樣本,其中,每組原始音頻樣本中包括分別屬于多個說話人的多個單說話人原始音頻樣本;
從所述多組原始音頻樣本中的每組原始音頻樣本獲取訓練嵌入特征樣本序列;
利用所述多組原始音頻樣本的多個訓練嵌入特征樣本序列,根據先驗概率,對所述語音聚類模型進行訓練,其中,所述先驗概率是指根據已預測的訓練預測標簽確定的下一個預測的訓練預測標簽發生變化的概率,所述先驗概率包括說話人標簽分配序列概率,
其中,所述說話人標簽分配序列概率通過以下方式確定:
根據已預測的訓練預測標簽中的發生說話人變更的次數和已預測的訓練預測標簽的總數量,確定所述說話人標簽分配序列概率的統計參數;
根據所述統計參數,確定所述說話人標簽分配序列概率,
其中,所述統計參數表示為:
其中,表示統計參數,|
2.根據權利要求1所述的語音分離方法,其特征在于,通過以下方式獲取所述訓練嵌入特征樣本序列:
以時間窗口滑窗的方式從每組原始音頻樣本的每個單說話人原始音頻樣本中提取每個說話人的語譜圖特征樣本;
將每個說話人的語譜圖特征樣本輸入到預先訓練好的語音分割模型中,獲得每個說話人的訓練嵌入特征樣本;
將所述多個說話人的訓練嵌入特征樣本進行隨機拼接,獲取包括多個訓練嵌入特征樣本的訓練嵌入特征樣本序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司,未經北京遠鑒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110237579.3/1.html,轉載請聲明來源鉆瓜專利網。





