[發(fā)明專利]一種基于漢語言語測聽動態(tài)詞表的漢語言語自動測聽方法有效
| 申請?zhí)枺?/td> | 201210549152.8 | 申請日: | 2012-12-17 |
| 公開(公告)號: | CN103054586A | 公開(公告)日: | 2013-04-24 |
| 發(fā)明(設(shè)計)人: | 田業(yè);賈珈;蔡蓮紅 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | A61B5/12 | 分類號: | A61B5/12 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 薄觀玖 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 漢語 言語 動態(tài) 詞表 自動 方法 | ||
1.一種基于漢語言語測聽動態(tài)詞表的漢語言語自動測聽方法,其特征在于,是在一個漢語言語測聽系統(tǒng)中依次按以下步驟實現(xiàn)的:
步驟(1),構(gòu)建一個包括中央處理器、鼠標、鍵盤、圖形顯示器、外存設(shè)備和聽力計的漢語言語測聽系統(tǒng),所述中央處理器的各輸入端分別與所述鍵盤、鼠標及聽力計的輸出端相連,所述聽力計的輸入端與揚聲器的輸出端相連,所述中央處理器的各其他輸出/輸入端與圖形顯示器和外存設(shè)備分別互連;
步驟(2),在所述中央處理器中,依次按以下步驟構(gòu)造一個漢語普通話言語測聽動態(tài)詞表,其中包括一個指定長度的必測詞表和一個不定長度的隱含詞表:
步驟(2.1),依次按以下步驟構(gòu)造一個所述的指定長度的必測詞表:
步驟(2.1.1),選擇測試文件方式的測試項,每個所述測試項在漢語口語交流中出現(xiàn)的頻次都排名在前2000以內(nèi),所述測試項的集合要覆蓋漢語普通話所有聲韻調(diào)的組合,并為每個所述測試項錄制成一個相應(yīng)語音文件;
步驟(2.1.2),對步驟(2.1.1)得到的語音文件分別標注每個音節(jié)中聲母和韻母的起始位置,并把聲母部分的語音信號重新存儲為一個聲母語音文件,把韻母部分的語音信號重新存儲為一個韻母語音文件;
步驟(2.1.3),依次按以下步驟在聽感上對聲母進行分類:
步驟(2.1.3.1),按以下步驟從步驟(2.1.2)得到的聲母語音文件中提取如下所述聲學(xué)特征參數(shù):聲母過零率參數(shù)ZCR、聲母MFCC參數(shù)M以及聲母Bark頻帶能量比率參數(shù)Br,所述的ZCR,M及Br是按照以下步驟得到的:
步驟(2.1.3.1.1),所述的聲母過零率參數(shù)ZCR按以下公式計算:
其中K為聲母時域語音信號采樣點個數(shù),k為聲母時域語音信號采樣點的索引,k=2,3,…,K,x(k)為第k個聲母時域語音信號采樣值,sgn(x(k))表示取x(k)的符號,x(k)為正數(shù)時取1,x(k)為負數(shù)時取-1,否則取0,ZCR為聲母過零率參數(shù);
步驟(2.1.3.1.2),所述的聲母Bark頻帶能量比率參數(shù)Br按以下步驟得到:
步驟(2.1.3.1.2.1),把聲母語音信號分幀、加窗后按下列公式求聲母FFT能量譜:
其中,K為聲母時域語音信號采樣點個數(shù),k為聲母時域語音信號采樣點的索引,k=0,1,…,K-1,x(k)為第k個聲母時域語音信號采樣值,?n為聲母頻域信號的索引,計算中聲母頻域信號總數(shù)與時域信號總數(shù)相同,n=0,1,…,K-1,j為頻數(shù)單位,e為自然對數(shù)的底,為諧波頻率,為第n次諧波序列,F(xiàn)[n]為轉(zhuǎn)換后的第n個FFT頻域值,取其幅值的對數(shù)值作為FFT能量值,所有FFT能量值組成該聲母語音信號的FFT能量譜,F(xiàn)[2n']為偶數(shù)項頻域值,F(xiàn)[2n'+1]為奇數(shù)項頻域值,;
步驟(2.1.3.1.2.2),令x1,x2,…,x21分別為所述聲學(xué)FFT能量譜中,每一個Bark頻帶i的累計能量分量和,共有21個,i=1,2,…,21;
步驟(2.1.3.1.2.3),按下式計算頻帶i的累計能量分量和占全部頻帶能量的比例yi:
步驟(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…,y21作為聲母的21維Bark頻帶能量比率參數(shù);
步驟(2.1.3.1.3),聲母MFCC參數(shù)M按以下步驟得到:
步驟(2.1.3.1.3.1),按步驟(2.1.3.1.2.1)對聲母語音信號做FFT變換,得到FFT變換后的頻譜,計算該頻譜的幅值的平方,得到離散的功率譜;
步驟(2.1.3.1.3.2),采用如下三角濾波器組在頻域內(nèi)對步驟(2.1.3.1.3.1)得到的離散的功率譜進行帶通濾波,并將濾波后的結(jié)果取對數(shù):
其中f(u)為第u個頻帶的中心頻率,u為頻帶的索引,u=0,1,…,U-1,U為頻帶總數(shù),取U=24,v為離散頻率分量值,v=0,1,…,?Tu(v)為第u個頻帶對應(yīng)的濾波器組對頻率v的頻率響應(yīng);?
步驟(2.1.3.1.3.3),將步驟(2.1.3.1.3.2)得到的結(jié)果通過以下離散余弦變換DCT公式計算,得到12階的MFCC系數(shù)M:
其中,w(u')為步驟(2.1.3.1.3.2)得到的對數(shù)值序列,表示第u'個余弦分量,Mu為第u個MFCC參數(shù),(M1,M2,…,M12)構(gòu)成12階MFCC參數(shù);
步驟(2.1.3.2),對步驟(2.1.3.1.1)至步驟(2.1.3.1.3)得到的聲學(xué)特征參數(shù)按下式進行歸一化處理:
其中,fnew是歸一化處理后的包括ZCR、Mu、yi在內(nèi)的各聲學(xué)特征參數(shù),fsource是歸一化處理之前的聲學(xué)特征參數(shù),F(xiàn)source為同一維度i的未處理時的聲學(xué)特征參數(shù)集合;
步驟(2.1.3.3),按下式計算每個語音對應(yīng)的清晰度ATLh:
其中Ca為常值,取值為Ca=0.9027,c0為參數(shù)ZCR的系數(shù),取值為c0=-0.0585,Bri表示第i維Bark頻帶能量比率參數(shù),Bri=yi,bi為參數(shù)Bri的系數(shù),取值分別為b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493,b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143,Mu表示第u維MFCC參數(shù),mu為參數(shù)Mu的系數(shù),取值分別為m1=-0.2620,m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0,?h表示測試項的索引,h=1,2,…,H,H為測試項總數(shù),取H=20;
步驟(2.1.3.4),按以下步驟得到聲母必測詞表:
步驟(2.1.3.4.1),設(shè)定每一個所述聲母語音文件為一類,Sh'={Xh'},其中Sh'為第h'個分類,Xh'為第h'個聲母語音的特征參數(shù)向量;
步驟(2.1.3.4.2),把H'個分類中歐氏距離最近的向量與類歸并為一個子類,構(gòu)成歐式距離最近的向量聲母語音的集合;
步驟(2.1.3.4.3),分別計算步驟(2.1.3.4.2)得到的各個集合內(nèi)所有向量的平均值,作為該集合的中心向量,再計算任何兩個所述聲母語音集合的中心向量的歐氏距離作為任意兩個所述聲母語音集合的距離;
步驟(2.1.3.4.4),重復(fù)步驟(2.1.3.4.2)和步驟(2.1.3.4.3),直到只剩下一個子類;
步驟(2.1.3.4.5),根據(jù)步驟(2.1.3.4.4)得到的結(jié)果構(gòu)造一棵葉子節(jié)點為21個聲母語音的聚類樹,最終把聲母語音分成八類:
第一類聲母語音為b,?d,?f,?分類頻率為19.60%,分類個數(shù)為4,
第二類聲母語音為p,?t,?ch,?分類頻率為7.26%,分類個數(shù)為1,
第三類聲母語音為g,?k,?h,?分類頻率為11.75%,分類個數(shù)為2,
第四類聲母語音為j,?q,?x,?分類頻率為14.95%,分類個數(shù)為3,
第五類聲母語音為z,?c,?s,?分類頻率為5.24%,分類個數(shù)為1,
第六類聲母語音為l,?m.?n,?r,?分類頻率為13.90%,分類個數(shù)為3,
第七類聲母語音為zh,?sh,?分類頻率為14.84%,分類個數(shù)為3,
第八類聲母語音為零聲母,?分類頻率為12.45%,分類個數(shù)為3,
分類頻率為該聲母子類在口語中出現(xiàn)頻次占上述所有聲母分類在口語中出現(xiàn)的總頻次的百分比,分類個數(shù)為以單個必測詞表測試項總數(shù)H=20為例,將該測試總數(shù)乘以分類的頻率然后四舍五入得到的該分類在詞表中的個數(shù),零聲母是指,在漢語普通話中只由一個韻母組成的音節(jié),由于該音節(jié)沒有聲母,聲學(xué)上將該類音節(jié)的聲母稱之為零聲母;
步驟(2.1.4),依次按照以下步驟在聽感上對韻母語音進行分類:
步驟(2.1.4.1),對步驟(2.1.2)得到的每個韻母語音文件,選擇時序上位于每個韻母語音文件上韻母總時長的1/6、3/6、5/6三個時刻的語音幀,按如下步驟計算生成三條LPC譜曲線,每個韻母語音文件均有三條線性預(yù)測LPC譜曲線:
步驟(2.1.4.1.1),對每個韻母語音幀按下式進行預(yù)加重處理:
s(k')=x(k')-0.94x(k'-1)?
其中,k'為韻母語音采樣信號的索引,x(k')為原始韻母語音文件中第k'個韻母語音采樣信號的幅值,s(k')為預(yù)加重處理后的韻母語音信號幅值;
步驟(2.1.4.1.2),對步驟(2.1.4.1.1)預(yù)加重處理得到的韻母語音信號采用如下漢明窗進行加窗處理:
其中M為預(yù)先指定的窗長,W(m)為第m個窗序列值,m為窗序列的索引,m=0,1,…,M-1,
加窗處理公式為:
其中,s(k')為步驟(2.1.4.1.1)得到的語音,W(m-k')為漢明窗的第m-k'個值,z(m)為加窗處理后的語音;
步驟(2.1.4.1.3),對步驟(2.1.4.1.2)得到的語音信號z(m),按如下方程組計算指定階數(shù)為P的P個LPC系數(shù),P的取值范圍為15≤P≤60且P為整數(shù):
令
,
其中,z(m)z(m+p)表示兩個時域信號的乘積,r(p)是中間變量,εP為實際信號與線性預(yù)測信號的最小均方誤差,αp為第p個LPC系數(shù),p為LPC系數(shù)的索引,且p=1,2,…,P,(α1,α2,…,αp)即為所求的P個LPC系數(shù);
步驟(2.1.4.1.4),按步驟(2.1.3.1.1)計算由步驟(2.1.4.1.3)得到的LPC系數(shù)(α1,α2,…,αp)的FFT能量譜,該能量譜對應(yīng)的曲線即為LPC譜曲線;?
步驟(2.1.4.2),對于每條所述的LPC譜線,以500Hz,1000Hz,2000Hz為中心,分別計算[450,550]、[950,1050]和[1950,2050]三個頻率段內(nèi)LPC譜曲線的積分,由此得到一個九維特征向量,作為韻母的特征向量;
步驟(2.1.4.3),對所有的韻母語音文件執(zhí)行步驟(2.1.4.1)到步驟(2.1.4.2),各九維特征向量之間的歐氏距離為韻母語音感知距離;
步驟(2.1.4.4),把步驟(2.1.4.3)的結(jié)果聚成一個韻母語音的聚類樹,把韻母語音分成八類:
第一類韻母語音為o,?ou,?ong,?iong,?er,?uo,?分類頻率為11.70%,分類個數(shù)為2,
第二類韻母語音為ia,?iao,?iang,?ai,?an,?üan,?eng,?uan,?分類頻率為16.37%,分類個數(shù)為3,
第三類韻母語音為a,?ao,?ang,?ua,?uang,?uai,?分類頻率為11.27%,分類個數(shù)為2,
第四類韻母語音為en,?iu,?ui,?uen,?分類頻率為9.40%,分類個數(shù)為2,
第五類韻母語音為i,?in,?ing,?ie,?ian,?ei,?ün,?分類頻率為28.53%,分類個數(shù)為6,
第六類韻母語音為ü,?üe,?分類頻率為2.81%,分類個數(shù)為1,
第七類韻母語音為u,?分類頻率為7.11%,分類個數(shù)為1,
第八類韻母語音為e,?分類頻率為12.38%,分類個數(shù)為3;
步驟(2.1.5),設(shè)定:所述漢語普通話言語測聽動態(tài)詞表中音位q的出現(xiàn)頻率與口語交流中去除輕聲音節(jié)之后的聲韻調(diào)的統(tǒng)計頻率相同,為fq,按如下步驟計算每個聲母語音分類、韻母語音分類及聲調(diào)語音分類在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù):
步驟(2.1.5.1),按如下公式計算每個聲母語音分類在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù):
其中q1為聲母音位,為q1的統(tǒng)計頻率,Sa為第a類聲母音位集合,a為聲母類的索引,為聲母類Sa在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù),H為測試項總數(shù);
步驟(2.1.5.2),按如下公式計算每個韻母語音分類在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù):
其中q2為韻母音位,為q2的統(tǒng)計頻率,Sb為第b類韻母音位集合,b為聲母類的索引,為韻母類Sb在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù);
步驟(2.1.5.3),按如下公式計算每個聲調(diào)語音分類在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù):
其中q3為聲調(diào)音位,為q3的統(tǒng)計頻率,Sc為第c類聲調(diào)音位集合,c為聲調(diào)類的索引,為聲調(diào)類Sc在所述漢語普通話言語測聽動態(tài)詞表中的實際分配個數(shù);
步驟(2.1.6),根據(jù)步驟(2.1.5)中的聲母語音、韻母語音及聲調(diào)語音的分類及各類的實際分配個數(shù)搭配組詞編制成所述設(shè)定長度的必測詞表;
步驟(2.1.7),按下式計算所述必測詞表的清晰度ATL_TB:
并按所述必測詞表清晰度ATL_TB調(diào)整詞表項,使各個語音文件所對應(yīng)的必測詞表的清晰度相等或相近,以減少各個必測詞表在聽感上的差異,步驟如下:
步驟(2.1.7.1),計算步驟(2.1.7)生成的所有所述必測詞表的詞表清晰度的平均值A(chǔ)TL_TBmean及標準差A(yù)TL_TBSD:
其中,q表示所述必測詞表的索引,q=1,2,…,Q,Q為所制定的所述必測詞表的總張數(shù),?ATL_TBq為第q張所述必測詞表的清晰度;
步驟(2.1.7.2),設(shè)定:步驟(2.1.7.1)中各必測詞表與詞表清晰度平均值A(chǔ)TL_TBmean之差的絕對值的閾值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步驟(2.1.7.3),把步驟(2.1.7.1)中各必測詞表的清晰度ATL_TB與ATL_TBmean進行比較,若Δ(ATL_TB)≤0.1,則可不必對該詞表進行調(diào)整,否則:
若ATL_TB<ATL_TBmean,則刪掉該必測詞表ATL_TB中清晰度ATL較小語音測試項,
若ATL_TB>ATL_TBmean,則刪掉該必測詞表ATL_TB中清晰度ATL較大語音測試項;
步驟(2.1.7.4),按以下方式對步驟(2.1.7.3)中被刪去的項進行替代:
若ATL_TB<ATL_TBmean,則用清晰度大于所述刪去項且由和該刪去項的相同聲母、同類韻母項搭配組成的項代替,
若ATL_TB>ATL_TBmean,則用清晰度小于所述刪去項且由與該被刪去項相同聲母、同類韻母搭配組成的項代替;
步驟(2.1.7.5),重復(fù)執(zhí)行步驟(2.1.7.4)直至步驟(2.1.7.4)中的各必測詞表的清晰度ATL_TB與ATL_TBmean之差的絕對值小于預(yù)先設(shè)定的閾值Δ(ATL_TB)≤0.1為止,從而組成一個有多個等價的言語測聽動態(tài)詞表的言語測聽系統(tǒng);
步驟(2.2),不定長度的隱含詞表是當(dāng)受試者對必測詞表項聽辨錯誤時所選擇的補充測試項的集合,其中,兩者的聲母語音屬于同一個聲母語音分類,韻母語音也屬于同一韻母語音分類,共同組成隱含詞表同質(zhì)項;
步驟(3),測試者在一個隔音房間中對被測試者進行言語測聽,由計算機隨機播放測試項,用聽力計對音強進行調(diào)節(jié)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210549152.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





