[發明專利]一種基于隨機映射直方圖模型的文本無關說話人鑒別裝置有效
| 申請號: | 201410232526.2 | 申請日: | 2014-05-28 |
| 公開(公告)號: | CN103985384A | 公開(公告)日: | 2014-08-13 |
| 發明(設計)人: | 于泓;馬占宇;郭軍 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L25/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 映射 直方圖 模型 文本 無關 說話 鑒別 裝置 | ||
技術領域
本發明屬于音頻處理領域著重描述了一種基于隨機映射直方圖模型的文本無關說話人鑒別裝置。
背景技術
說話人識別是計算機利用語音片段中所包含的能夠反映說話人特征的信息來鑒定說話人身份的技術,該技術在信息安全,遠程身份認證等領域具有非常重要的研究及應用價值。
根據識別對象的不同,可以將說話人鑒別分為文本有關和文本無關兩類。其中文本有關的說話人鑒別技術,要求利用說話人發音的關鍵詞和關鍵句子作為訓練樣本,辨別時利用相同的內容發音進行鑒定,這種系統使用不便且關鍵內容容易被竊錄。文本無關的說話人辨認技術,在訓練時和辨認時都不規定說話內容,識別對象是自由的語音信號,需要在自由的語音信號中找到能表征說話人的信息的特征和方法,因此建立說話人模型相對困難,但該技術使用方便安全。本發明所描述的是文本無關的鑒別裝置。
說話人鑒別通常包含3個組成部分(1)從訓練語音數據集中提取能夠表達說話人特點的特征;(2)為說話人訓練一個能夠反映其語音特征分布規律的模型;(3)通過計算輸入語音的特征與已獲取的訓練模型的契合程度來進行做出最終決策。
常用的說話人鑒別系統在特征提取部分中采用MFCC(Mel-frequency?Cepstral?Coefficients,梅爾倒譜系數)或者LSF(Line?Spectral?Frequencies,線譜頻率)作為基本特征,在模型訓練部分中采用GMM(Gaussian?Mixture?Model,高斯混合模型)或者統計直方圖作為概率模型。
傳統的特征易于受到噪聲干擾且難以表達動態信息,GMM模型只適用對于分布范圍較廣的特征進行建模,統計直方圖模型雖然可以對任意分布的特征信號進行建模,但當訓練樣本不足或特征維度過高時,建立的模型中存在大量的零點,導致結果不連續。本發明所描述的文本無關的說話人識別方法可以大大的解決上述的問題。
發明內容
為了解決上述技術所存在的缺陷并提高文本無關的說話人鑒別率,本發明提供一種基于復合差分線譜頻率特征與隨機變換直方圖模型的文本無關說話人鑒別方法,包括以下步驟:
一.特征提取步驟:
A、差分線譜頻率特征提取步驟:將從語音線性預測編碼模型中獲取的K維非歸一化遞增的線譜頻率特征變換為K+1維歸一化的差分線譜頻率特征。
B、生成復合差分線譜頻率特征的步驟:將相鄰的3幀差分線譜頻率特征進行組合生成復合差分線譜頻率特征以表達信號的動態特性。
二.隨機映射直方圖模型訓練步驟:對于每個說話人的訓練語音按照步驟一的描述提取T幀復合差分線譜頻率特征作為1組訓練數據集。采用隨機映射的方法對該訓練數據集進行H次隨機變換得到H組訓練特征。對每組特征進行直方圖統計,并利用H組訓練特征的平均直方圖作為該說話人的概率模型。最終每個說話人都會訓練得到一個屬于自己的模型。
三.鑒別匹配步驟:輸入一段語音后,采用步驟一的方法生成1組特征并將該特征輸入步驟二中訓練得到的各個說話人的模型中,計算這組特征針對每一個模型的似然值,取其中最大似然值來確認說話人的編號。
根據本發明的一個實施方式的一種與文本無關的說話人鑒別方法,步驟A所描述的歸一化的差分線譜頻率特征提取方式如下:
其中[x1,x2,…,xK]T為變換前的K維線譜頻率特征,△x為變換后K+1維的歸一化差分線譜頻率特征
根據本發明的一個實施方式的一種與文本無關的說話人鑒別方法,步驟B中描述的復合差分線譜頻率特征的具體生成過程如下:
假設第t幀的差分線譜頻率特征為△x(t),則第t幀的復合差分線譜頻率特征為:
Sup△x(t)=[△x(t-τ)T,△x(t)T,△x(t+τ)T]T
其中τ為正整數,本發明中取τ=1。
根據本發明的一個實施方式的一種與文本無關的說話人鑒別方法,步驟二中所描述的模型訓練方法如下:
1)對維度D=K+1的復合差分線譜頻率特征進行隨機映射變換,變換公式為:y=Ax+b,其中A為D×D維的隨機旋轉縮放矩陣,b為D×1維的隨機平移向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410232526.2/2.html,轉載請聲明來源鉆瓜專利網。





