[發明專利]說話人識別方法和說話人識別設備在審
| 申請號: | 201610216660.2 | 申請日: | 2016-04-07 |
| 公開(公告)號: | CN107274904A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 石自強;劉柳;劉汝杰 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 朱勝,吳瓊 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 識別 方法 設備 | ||
1.一種說話人識別方法,包括:
從待識別說話人語料中,提取待識別說話人的語音特征;
基于所提取的待識別說話人的語音特征、體現語音特征在特征空間中的分布的通用背景模型UBM、體現語音特征在特征空間中的分布的變化的統計值的梯度通用說話人模型GUSM、體現環境變化的總變化矩陣,得到待識別說話人模型;以及
比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
2.如權利要求1所述的方法,其中,從待識別說話人語料中,提取待識別說話人的語音特征包括:
以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數據中提取特征向量,構成第一特征向量集。
3.如權利要求2所述的方法,其中,基于所提取的待識別說話人的語音特征、體現語音特征在特征空間中的分布的通用背景模型UBM、體現語音特征在特征空間中的分布的變化的統計值的梯度通用說話人模型GUSM、體現環境變化的總變化矩陣,得到待識別說話人模型包括:
將第一特征向量集輸入到UBM的微分函數中并取平均,以得到第一向量值;
將第一向量值和GUSM之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型。
4.如權利要求1所述的方法,其中,UBM和GUSM通過如下步驟得到:
以預定滑動步長滑動預定窗口的方式,掃描第一訓練語料,從窗口對應的第一訓練語料的數據中提取特征向量,構成第二特征向量集;
利用第二特征向量集,訓練UBM;
將第二特征向量集輸入到UBM的微分函數中并取平均,以得到GUSM;
其中,所述第一訓練語料包括來自各個說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸的、各種周邊環境的語音數據。
5.如權利要求1所述的方法,其中所述總變化矩陣和所述已知說話人模型通過如下步驟獲得:
以預定滑動步長滑動預定窗口的方式,掃描所述第二訓練語料,針對每個已知說話人的每句話,從窗口對應的第二訓練語料的數據中,提取特征向量,構成第三特征向量集;
將針對每個已知說話人的每句話的第三特征向量集輸入到UBM的微分函數中并取平均,以得到每個已知說話人的每句話的第二向量值;
根據每個已知說話人的每句話的第二向量值、GUSM,求解所述總變化矩陣和已知說話人的每句話的模型;
將已知說話人的每句話的模型加和求平均,得到所述已知說話人模型;
其中,所述第二訓練語料包括來自已知說話人的、使用各種音頻捕獲設備收集的、經由各種信道傳輸的、各種周圍環境的語音數據。
6.如權利要求1所述的方法,其中,比較待識別說話人模型和所述已知說話人模型,以確定待識別說話人是否為已知說話人之一包括:
計算待識別說話人模型與已知說話人模型的相似度;
將待識別說話人識別為:與待識別說話人模型的相似度最大且大于相似度閾值的已知說話人模型對應的已知說話人。
7.如權利要求6所述的方法,其中,在待識別說話人模型與已知說話人模型的相似度的最大值小于或等于相似度閾值的情況下,將待識別說話人識別為已知說話人之外的說話人。
8.一種說話人識別設備,包括:
說話人語義特征提取裝置,被配置為:從待識別說話人語料中,提取待識別說話人的語音特征;
說話人模型構建裝置,被配置為:基于所提取的待識別說話人的語音特征、體現語音特征在特征空間中的分布的通用背景模型UBM、體現語音特征在特征空間中的分布的變化的統計值的梯度通用說話人模型GUSM、體現環境變化的總變化矩陣,得到待識別說話人模型;以及
說話人識別裝置,被配置為:比較待識別說話人模型和已知說話人模型,以確定待識別說話人是否為已知說話人之一。
9.如權利要求8所述的設備,其中,說話人語義特征提取裝置被進一步配置為:
以預定滑動步長滑動預定窗口的方式,掃描待識別說話人語料,從窗口對應的待識別說話人語料的數據中提取特征向量,構成第一特征向量集。
10.如權利要求9所述的設備,其中,說話人模型構建裝置被進一步配置為:
將第一特征向量集輸入到UBM的微分函數中并取平均,以得到第一向量值;
將第一向量值和GUSM之差與總變化矩陣的偽逆矩陣之積,作為待識別說話人模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610216660.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本處理方法和裝置、用于文本處理的裝置
- 下一篇:一種聲紋識別方法及系統





