[發明專利]一種基于概率線性鑒別分析模型的說話人聚類方法及系統有效
| 申請號: | 201410459009.9 | 申請日: | 2014-09-10 |
| 公開(公告)號: | CN105469784B | 公開(公告)日: | 2019-01-08 |
| 發明(設計)人: | 楊琳;索宏彬;周若華;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L17/00;G10L17/04 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 王宇楊;王敬波 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 概率 線性 鑒別 分析 模型 生成 方法 說話 人聚類 系統 | ||
1.一種基于概率線性鑒別分析模型的說話人聚類方法,該方法包括如下步驟:
步驟201),對待聚類說話人語句進行預處理;所述待聚類說話人語句的個數為S;
步驟202),提取預處理后的待聚類說話人語句的梅爾頻率倒譜系數特征;
步驟203),基于預處理后的待聚類說話人語句的梅爾頻率倒譜系數特征計算所有待聚類說話人語句的總變化量因子;
步驟204),基于所述的概率線性鑒別分析模型計算兩兩待聚類說話人語句的總變化量因子的概率線性鑒別分析距離;
步驟205),基于概率線性鑒別分析距離確定的密度值選擇初始的類別數目和每個類包含的語句;
步驟206),通過聚類算法獲取最終的類別數目和每個類包含的語句;
所述概率線性鑒別分析模型的生成步驟包括:
步驟101),采集一定數量的語音數據作為訓練語句,并進行預處理;
步驟102),提取預處理后的訓練語句的梅爾頻率倒譜系數特征;
步驟103),基于預處理后的訓練語句的梅爾頻率倒譜系數特征計算每個訓練語句的總變化量因子;
步驟104),基于所有訓練語句的總變化量因子生成概率線性鑒別分析模型;所述概率線性鑒別分析模型包括:說話人矩陣和概率線性鑒別分析模型的殘差方差矩陣;
在步驟205)中,所述基于概率線性鑒別分析距離確定的密度值選擇初始的類別數目和每個類包含的語句包括:
選擇與第p,p=1…S個語句總變化量因子的PLDA距離最小的K個語句,所選擇的K個語句集合記為Bp,所述K可以通過經驗和統計規律優選獲得;計算K個PLDA距離的均值為:
其中,wp為第p個語句的總變化量因子,wq為為第q個語句的總變化量因子;dp為第p個語句的的密度值;對應的K+1個語句的總變化量因子的均值為:
為上述K+1個語句的類中心;dp越小表明以為類中心時類的密集程度越高;
對S個密度值dp,p=1…S按照從小到大進行排序,然后按順序選擇M個dp對應的類中心所述M可以通過經驗和統計規律優選獲得;對其中的第m,m=1…M個類中心,從所有訓練語句中選擇與其PLDA距離最小的gm個語句劃分為同一類,類表示為所包含的語句集合:Bm={gm個語句},gm取隨機值,滿足對應的類中心為類中包含的訓練語句的總變化量因子的均值,計算方法為:
所述初始類別數目為M,所述每個類包含的語句為集合Bm,其中m=1,…M;初始類中心為其中m=1,…M。
2.根據權利要求1所述的基于概率線性鑒別分析模型的說話人聚類方法,其特征在于,在步驟206)中,所述聚類算法為K均值層次聚類算法或層次化凝聚聚類算法。
3.一種基于概率線性鑒別分析模型的說話人聚類系統,其特征在于,所述的系統包含:
前端處理模塊,用于對待聚類說話人語句進行預處理;
特征提取模塊,用于提取預處理后的待聚類說話人語句的梅爾頻率倒譜系數特征;
總變化量因子計算模塊,用于計算所有待聚類說話人語句的總變化量因子;
概率線性鑒別分析建模模塊:用于采集一定數量的語音數據作為訓練語句,并進行預處理;提取預處理后的訓練語句的梅爾頻率倒譜系數特征;基于預處理后的訓練語句的梅爾頻率倒譜系數特征計算每個訓練語句的總變化量因子;基于所有訓練語句的總變化量因子生成概率線性鑒別分析模型;
概率線性鑒別分析距離計算模塊,用于基于概率線性鑒別分析模型兩兩計算待聚類說話人語句的總變化量因子的概率線性鑒別分析距離;
初始類選擇模塊,用于基于基于概率線性鑒別分析距離確定的密度值選擇初始類,所述初始類包括初始類別數目和每個類包含的語句;
所述基于概率線性鑒別分析距離確定的密度值選擇初始類包括:
選擇與第p,p=1…S個語句總變化量因子的PLDA距離最小的K個語句,所選擇的K個語句集合記為Bp,所述K可以通過經驗和統計規律優選獲得;計算K個PLDA距離的均值為:
其中,wp為第p個語句的總變化量因子,wq為為第q個語句的總變化量因子;dp為第p個語句的的密度值;對應的K+1個語句的總變化量因子的均值為:
為上述K+1個語句的類中心;dp越小表明以為類中心時類的密集程度越高;
對S個密度值dp,p=1…S按照從小到大進行排序,然后按順序選擇M個dp對應的類中心所述M可以通過經驗和統計規律優選獲得;對其中的第m,m=1…M個類中心,從所有訓練語句中選擇與其PLDA距離最小的gm個語句劃分為同一類,類表示為所包含的語句集合:Bm={gm個語句},gm取隨機值,滿足對應的類中心為類中包含的訓練語句的總變化量因子的均值,計算方法為:
所述初始類別數目為M,所述每個類包含的語句為集合Bm,其中m=1,…M;初始類中心為其中m=1,…M;
聚類模塊,用于通過聚類算法獲取最終的類別數目和每個類包含的語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410459009.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:會診信息處理方法及裝置
- 下一篇:一種粉末冶金管擴散消聲器





