[發明專利]語音分離方法、語音分離裝置、電子設備及存儲介質有效

申請號：	202110237579.3	申請日：	2021-03-04
公開（公告）號：	CN112634875B	公開（公告）日：	2021-06-08
發明（設計）人：	史王雷;王秋明	申請（專利權）人：	北京遠鑒信息技術有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L15/16;G10L15/183;G10L15/26;G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京超凡宏宇專利代理事務所(特殊普通合伙) 11463	代理人：	武慧南
地址：	100000 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音分離方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音分離方法，其特征在于，所述語音分離方法包括：

獲取原始音頻，并以時間窗口滑窗的方式從所述原始音頻中提取語譜圖特征序列；

將所述語譜圖特征序列輸入到預先訓練好的語音分割模型中，通過所述語音分割模型獲取嵌入特征序列；

將所述嵌入特征序列輸入到預先訓練好的語音聚類模型中，通過所述語音聚類模型獲得與所述嵌入特征序列對應的預測標簽序列；

根據所述預測標簽序列進行單個說話人語音還原，生成分離的語音，

其中，通過以下方式訓練語音聚類模型：

獲取多組原始音頻樣本，其中，每組原始音頻樣本中包括分別屬于多個說話人的多個單說話人原始音頻樣本；

從所述多組原始音頻樣本中的每組原始音頻樣本獲取訓練嵌入特征樣本序列；

利用所述多組原始音頻樣本的多個訓練嵌入特征樣本序列，根據先驗概率，對所述語音聚類模型進行訓練，其中，所述先驗概率是指根據已預測的訓練預測標簽確定的下一個預測的訓練預測標簽發生變化的概率，所述先驗概率包括說話人標簽分配序列概率，

其中，所述說話人標簽分配序列概率通過以下方式確定：

根據已預測的訓練預測標簽中的發生說話人變更的次數和已預測的訓練預測標簽的總數量，確定所述說話人標簽分配序列概率的統計參數；

根據所述統計參數，確定所述說話人標簽分配序列概率，

其中，所述統計參數表示為：

其中，表示統計參數，|D|表示所述多個訓練嵌入特征樣本序列中的訓練嵌入特征樣本序列的總數量，m表示所述多個訓練嵌入特征樣本序列中的第m個訓練嵌入特征樣本序列，m=1,…,|D|，Y_m={y_m,1, …, y_m,i, y_m,i+1, …, y_m,N}，Y_m表示與第m個訓練嵌入特征樣本序列對應的訓練預測標簽序列，|Y_m|表示與第m個訓練嵌入特征樣本序列對應的訓練預測標簽序列中的訓練預測標簽值的總數量，其中，y_m,i表示第m個訓練預測標簽序列的第i個嵌入特征樣本的訓練預測標簽值，N表示第m個訓練預測標簽序列中的訓練預測標簽的總數量，i=1,…,N-1。