[發明專利]一種基于隨機映射直方圖模型的文本無關說話人鑒別裝置有效
| 申請號: | 201410232526.2 | 申請日: | 2014-05-28 |
| 公開(公告)號: | CN103985384A | 公開(公告)日: | 2014-08-13 |
| 發明(設計)人: | 于泓;馬占宇;郭軍 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L25/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 映射 直方圖 模型 文本 無關 說話 鑒別 裝置 | ||
1.一種基于隨機映射直方圖模型的文本無關說話人鑒別裝置,其特征在于,包括以下步驟:?
一.特征提取步驟:?
A、差分線譜頻率特征提?。簩恼Z音線性預測編碼模型中獲取的K維非歸一化遞增的線譜頻率特征變換為K+1維歸一化的差分線譜頻率特征;?
B、生成復合差分線譜頻率特征:將相鄰的3幀差分線譜頻率特征進行組合生成復合差分線譜頻率特征以表達信號的動態特性。?
二.隨機映射直方圖模型訓練步驟:對于每個說話人的訓練語音按照步驟一的描述提取T幀復合差分線譜頻率特征作為1組訓練數據集。采用隨機映射的方法對該訓練數據集進行H次隨機變換得到H組訓練特征。對每組特征進行直方圖統計,并利用H組訓練特征的平均直方圖作為該說話人的概率模型。最終每個說話人都會訓練得到一個屬于自己的模型。?
三.鑒別匹配步驟:輸入一段語音后,采用步驟一的方法生成1組特征并將該特征輸入步驟二中訓練得到的各個說話人的模型中,計算這組特征針對每一個模型的似然值,取其中最大似然值來確認說話人的編號。?
2.根據權利要求1所述的說話人識別方法中步驟一A的特征在于,差分線譜頻率特征提取時,將傳統的線譜頻率特征向量除π歸一化后,向量中各個相鄰元素相減,獲取差分特征向量,并增加一個正則元素來保證獲取的差分向量1范數為1。?
3.根據權利要求1所述的說話人識別方法中步驟一B的特征在于,復合差分線譜頻率特征獲取時將相鄰的3幀差分線譜頻率特征進行組合,相鄰幀的間距為1。?
4.根據權利要求1所述的說話人識別方法中步驟二的特征在于,隨機變換方式為y=Ax+b,其中A為隨機旋轉縮放矩陣,b為隨機平移向量。?
5.根據權利要求4中所述的隨機平移向量b其特征在于,b中的每一個元素,應當滿足0~1之間的均勻分布。?
6.根據權利要4中所述的隨機旋轉縮放矩陣A其特征在于,A為單位正交單位矩陣U與對角矩陣Λ的乘積。?
7.根據權利要求6中所述的單位正交矩陣U其特征在于,U由一個所有元素都滿足0-1之間的均勻分布的方陣V生成,對V進行QR分解,并根據分解得到的Q矩陣的行列式值是否為1對其左上角元素進行修正來獲取U。?
8.根據權利要求6中所述的對角矩陣Λ其特征在于,Λ的對角線元素取值為?
其中θmin=0,θmax=2,hj為訓練特征第j維直方圖的最佳bin寬,該數值由訓練數據的分布規律來決定。?
9.根據權利要求1所述的說話人識別方法中步驟二的特征在于,說話人的概率模型定義為?
其中等式的前半部分定義了直方圖中零點處概率估計方法,后半部分定義了平均直方圖概率的估計方法。?
其中為統計直方圖中零點出現的概率。p(x|ZeroDens)為零點位置的先驗概率?為輸入測試數據x在第i次變換中的直方圖概率估計其中?
。
10.根據權利要求9所述的零點位置的先驗概率p(x|ZeroDens)其特征在于,該先驗應當利用復合狄利克雷分布進行估計。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410232526.2/1.html,轉載請聲明來源鉆瓜專利網。





