[發明專利]基于加權貝葉斯混合模型的與文本無關的說話人識別方法有效
| 申請號: | 201410361706.0 | 申請日: | 2014-07-25 |
| 公開(公告)號: | CN104183239B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 魏昕;周亮;趙力;陳建新 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/02 |
| 代理公司: | 南京知識律師事務所32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 加權 貝葉斯 混合 模型 文本 無關 說話 識別 方法 | ||
1.基于加權貝葉斯混合模型的與文本無關的說話人識別方法,其特征在于,所述方法包括如下步驟:
步驟1:對語音信號進行預處理:包括采樣與量化、預加重、分幀與加窗;
步驟2:語音幀上的特征提?。簩γ恳徽Z音幀,計算D階線性預測倒譜系數,將其作為該幀的D維特征矢量;
步驟3:對于每一說話人所對應的訓練集合X={xn}n=1,...,N,其中N為該說話人用于訓練的D維特征矢量xn的個數;用加權貝葉斯混合模型,即WBMM來建模X,通過訓練估計出WBMM中的參數值以及隨機變量的分布,在該識別系統中需要識別G個說話人,則重復訓練過程G次,分別得到WBMM1,…,WBMMg,...,WBMMG;
步驟4:對于待識別的語音,首先進行預處理以及特征提取,得到相應的D維特征矢量x';計算x'關于每一個說話人對應的模型WBMM1,…,WBMMg,…,WBMMG的邊緣似然值{MLIKg(x')}g=1,...,G,最終的識別結果為最大的MLIKg(x')所對應的說話人speaker,即:
2.根據權利要求1所述的基于加權貝葉斯混合模型的與文本無關的說話人識別方法,其特征在于,所述方法步驟3所述的通過訓練估計出WBMM中的參數值以及隨機變量的分布的步驟如下:
步驟3-1:設定WBMM中的超參數{λ0,m0,β0,ν0,V0}的值,其中,λ0=0.01,m0=0,0為D維零矢量,β0=1,ν0=D,V0=400·I,I為(D×D)的單位矩陣;
步驟3-2:設定附加參數α的值,α取-8~-1之間的任意整數;
步驟3-3:產生N個服從[1,K]區間上均勻分布的隨機整數,其中K為WBMM的混合成分數,取16~32中的任意整數,統計該區間上各整數出現的概率θi;即,如果產生了Ni個整數i,那么θi=Ni/N;對于每個{xn}n=1,...,N,對應的隱變量{zn}n=1,...,N的初始分布為:
此外,設定迭代次數計數變量t=1,開始迭代循環;
步驟3-4:計算三個中間變量:
步驟3-5:更新WBMM中的隨機變量{πi}i=1,...,K的分布,其表示第i個混合成分的比重,它服從Dirichlet分布,即,q(πi)=Dir(πi|λi),相應的超參數{λi}i=1,...,K的更新公式如下:
步驟3-6:更新WBMM中隨機變量{μi,Ti}i=1,...,K的分布,其分別表示第i個成分的均值和逆協方差矩陣,所述第i個成分的均值和逆協方差矩陣服從聯合Gaussian-Wishart分布,即q(μi,Ti)=N(μi|mi,(βiTi)-1)W(Ti|νi,Vi),相應的超參數{mi,βi,νi,Vi}i=1,...,K的更新如下:
步驟3-7:更新隱變量{zn}n=1,...,N的分布,如下:
其中,
在上式中,各項期望<·>的計算公式如下:
上面公式中ψ(·)為標準的digamma函數,Gamma函數Γ(·)的對數的導數,即
ψ(·)=(lnΓ(·))′;
步驟3-8:計算當前迭代后的邊緣似然值MLIKt,t為當前的迭代次數:
步驟3-9:計算當前迭代后與上一次迭代后的邊緣似然值的差值ΔMLIK=MLIKt-MLIKt-1;如果ΔMLIK≤δ,那么通過訓練估計出WBMM中的參數值以及隨機變量的分布的過程結束,否則轉到上述步驟3-4,t的值增加1,進行下一次迭代;閾值δ的取值范圍為10-5~10-4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410361706.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種航空音頻播放器及航空告警系統
- 下一篇:一種顯示裝置、驅動裝置和驅動方法





