[發明專利]單信道多說話人身份識別方法及系統有效
| 申請號: | 201810053962.1 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108417201B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 俞凱;錢彥旻;王帥 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/22;G10L17/02;G10L17/04;G10L17/14;G10L17/22;G10L25/30 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信道 說話 人身 識別 方法 系統 | ||
1.一種單信道多說話人身份識別方法,所述方法包括:
獲取待識別的關于單信道多說話人的語音數據的混合幀級特征;
將所述混合幀級特征輸入至卷積神經網絡模型,以由所述卷積神經網絡模型推導關于多說話人各自作為參考目標說話人的幀級別概率分布;
其中,卷積神經網絡模型的訓練方法,包括:獲取待訓練的關于單信道多說話人的語音數據的混合幀級特征;根據所述待訓練的混合幀級特征的幀級能量比,計算關于所述多說話人各自作為參考目標說話人的真實幀級別概率分布;以及將所述待訓練的混合幀級特征輸入至卷積神經網絡模型,以由所述卷積神經網絡模型推導關于所述多說話人各自作為參考目標說話人的預測幀級別概率分布;
確定所述真實幀級別概率分布相對于所述預測幀級別概率分布的KL距離,其中所述KL距離通過以下公式來確定:
根據所述KL距離確定相應的焦點KL距離,并根據所述焦點KL距離訓練所述卷積神經網絡模型,其中所述焦點KL距離通過以下公式來確定:
其中,pref(yi|o)表示所述真實幀級別概率分布,pθ(yi|o)表示預測幀級別概率分布,KLD(θ;o,y)表示所述KL距離,FKLD(θ;o,y)表示所述焦點KL距離,w是距離加權因子,α和γ是兩個超參數,其中Pθ(yi|o)是用θ參數化的訓練模型計算出的觀測值o的后驗值,Pref(yi|o)是參考目標軟標簽,D是y的維數并代表說話者的數量,以及γ0;
根據所述幀級別概率分布,預測關于所述多說話人各自作為參考目標說話人的語句級別概率分布;以及
基于所述語句級別概率分布,識別所述語音數據所對應的說話人身份。
2.根據權利要求1所述的方法,其特征在于,所述超參數α和γ是根據針對所述卷積神經網絡模型的訓練條件所設置的,其中所述訓練條件包括訓練時間。
3.根據權利要求1所述的方法,其中,所述卷積神經網絡模型為空洞卷積神經網絡。
4.根據權利要求1所述的方法,其中,所述根據所述幀級別概率分布,預測關于所述多說話人作為參考目標說話人的語句級別概率分布包括:
為所述混合幀級特征中各個幀的幀級概率分別分配對應的幀權重;以及
基于分配所述幀權重之后的所述混合幀級特征中所述各個幀的幀級概率,預測所述語句級別概率分布。
5.根據權利要求4所述的方法,其中,通過以下方式來預測所述語句級別概率分布,包括:
其中,J(s)表示語句級別概率分布,T表示混合幀級特征中幀的數量,wt表示幀ot來自說話者s的最大概率,s表示參考目標說話人,p(s|ot)表示表示幀ot來自說話者s的概率,β是可調整的超參數,(wt)β表示所述幀權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810053962.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音合成播報方法和裝置
- 下一篇:語音識別方法及系統





