[發明專利]單信道多說話人身份識別方法及系統有效
| 申請號: | 201810053962.1 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108417201B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 俞凱;錢彥旻;王帥 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/22;G10L17/02;G10L17/04;G10L17/14;G10L17/22;G10L25/30 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信道 說話 人身 識別 方法 系統 | ||
本發明公開一種單信道多說話人身份識別方法及系統,所述單信道多說話人身份識別方法包括:獲取待識別的關于單信道多說話人的語音數據的混合幀級特征;將混合幀級特征輸入至卷積神經網絡模型,以由卷積神經網絡模型推導關于多說話人各自作為參考目標說話人的幀級別概率分布;根據幀級別概率分布,預測關于多說話人各自作為參考目標說話人的語句級別概率分布;以及基于語句級別概率分布,識別語音數據所對應的說話人身份。本發明實施例的單信道多說話人身份識別方法,以卷積神經網絡模型作為學習機器,提高了說話人身份識別的高精確度,并不需要對每種可能的說話人組合都建模,對計算和存儲資源的消耗較低,提高了身份識別系統的性能。
技術領域
本發明屬于說話者識別技術領域,尤其涉及一種單信道多說話人身份識別方法及系統。
背景技術
單信道說話者識別(co-channel speaker identification,單信道SID)旨在識別同時說話的多個說話者的身份,其經常被用于處理如“雞尾酒會問題”等。盡管現有技術的說話者識別(Speaker identification,SID)系統在單個講話者場景中可以達到令人印象深刻的精確度,但是在處理高度重疊(即單信道多說話人)的語音數據仍然是說話者識別研究領域中非常具有挑戰性的工作。
為了實現對同時說話的多個說話者的身份的識別,申請人也作出了一些嘗試。近年來,有學者提出基于高斯混合模型的單信道多說話人身份識別,其一般是用不同的高斯混合模型(Gaussian mixture model,GMM)去建模不同的說話人組合的聯合分布,然后根據選取概率最大的GMM代表的說話人組合作為判別結果。
但是,本申請的發明人在實踐本申請的過程中發現上述相關技術至少存在如下缺陷:由于單信道多說話人的音頻比較復雜,GMM很難進行充分的建模,以及每種可能的說話人組合都需要一個GMM進行建模,造成計算和存儲上的復雜性,限制了身份識別系統的性能。
需說明的是,關于上述相關技術的描述的目的,僅為了便于公眾更方便地了解本申請的實踐過程,且申請人并不承認上述相關技術的描述為現有技術。
發明內容
本發明實施例提供一種單信道多說話人身份識別方法及系統,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種單信道多說話人身份識別方法,所述方法包括:獲取待識別的關于單信道多說話人的語音數據的混合幀級特征;將所述混合幀級特征輸入至卷積神經網絡模型,以由所述卷積神經網絡模型推導關于多說話人各自作為參考目標說話人的幀級別概率分布;根據所述幀級別概率分布,預測關于所述多說話人各自作為參考目標說話人的語句級別概率分布;以及基于所述語句級別概率分布,識別所述語音數據所對應的說話人身份。
第二方面,本發明實施例提供一種單信道多說話人身份識別系統,所述系統包括:混合幀獲取程序模塊,用于獲取待識別的關于單信道多說話人的語音數據的混合幀級特征;卷積神經網絡模型,用于根據所述混合幀級特征,推導關于多說話人各自作為參考目標說話人的幀級別概率分布;語句概率預測程序模塊,用于根據所述幀級別概率分布,預測關于所述多說話人作為參考目標說話人的語句級別概率分布;語音數據識別程序模塊,用于基于所述語句級別概率分布,識別所述語音數據所對應的說話人身份。
第三方面,本發明實施例提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述方法的步驟。
第四方面,本發明實施例提供一種存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810053962.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音合成播報方法和裝置
- 下一篇:語音識別方法及系統





