[發(fā)明專利]基于特征融合的聲調(diào)識別方法有效
| 申請?zhí)枺?/td> | 201710939527.4 | 申請日: | 2017-10-11 |
| 公開(公告)號: | CN107492373B | 公開(公告)日: | 2020-11-27 |
| 發(fā)明(設(shè)計)人: | 晁浩;劉永利;魯保云;智慧來;劉志中 | 申請(專利權(quán))人: | 河南理工大學(xué) |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/01 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 454000 河南*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 特征 融合 聲調(diào) 識別 方法 | ||
1.一種基于特征融合的聲調(diào)識別方法,其特征在于包括如下步驟:
步驟1、提取待識別語音信號中每一幀的倒譜特征矢量,得到倒譜特征矢量序列;
步驟2、獲取所述待識別語音信號的韻律特征矢量;
步驟3、根據(jù)所述倒譜特征矢量序列計算所述待識別語音信號中每一幀的段統(tǒng)計量特征矢量,得到段統(tǒng)計量特征矢量序列;
步驟4、將所述倒譜特征矢量序列、所述韻律特征矢量和所述段統(tǒng)計量特征矢量序列輸入到預(yù)先訓(xùn)練好的反饋神經(jīng)網(wǎng)絡(luò)模型,得到每一種聲調(diào)的總識別得分,并將總識別得分最高的聲調(diào)判定為所述待識別語音信號的聲調(diào)類型;
所述步驟3中,根據(jù)所述倒譜特征矢量序列計算所述待識別語音信號中每一幀的段統(tǒng)計量特征矢量,得到段統(tǒng)計量特征矢量序列,具體步驟包括:
步驟31、獲取該幀前后特定時間范圍內(nèi)的語音段,并提取所述語音段對應(yīng)的局部倒譜特征矢量序列;
步驟32、計算所述局部倒譜特征矢量序列中每一維的統(tǒng)計特征;
步驟33、將所有維的統(tǒng)計特征連接起來,形成該幀的段統(tǒng)計量特征矢量;
所述步驟1中,待識別語音信號對應(yīng)一個音節(jié),倒譜特征矢量為梅爾頻率倒譜系數(shù);
所述步驟2中,韻律特征矢量包含基頻曲線特征、時長特征和能量特征;
所述步驟32中,統(tǒng)計特征包括:最大值、最小值、最大值所在位置、最小值所在位置、范圍、幾何平均數(shù)、算術(shù)平均數(shù)、平方平均數(shù)、方差、標(biāo)準(zhǔn)差、偏斜度;
所述步驟4中,反饋神經(jīng)網(wǎng)絡(luò)模型包含第一輸入層、第二輸入層、記憶層、第一隱含層、第二隱含層和輸出層;其中,所述第一輸入層用于接收所述倒譜特征矢量序列和所述段統(tǒng)計量特征矢量序列;所述第二輸入層用于接收所述韻律特征矢量;
所述步驟4的具體步驟包含:
步驟41:將所述倒譜特征矢量序列和所述段統(tǒng)計量特征矢量序列按照時序輸入到所述第一輸入層,將所述韻律特征矢量輸入到所述第二輸入層,計算每一幀的輸出值矢量;
步驟42:根據(jù)每一幀的輸出值矢量確定每一種聲調(diào)在每一幀的幀識別得分;
步驟43:將每一種聲調(diào)在每一幀的幀識別得分相加,得到每一種聲調(diào)的總識別得分;
步驟44:將總識別得分最高的聲調(diào)判定為所述待識別語音信號的聲調(diào)類型;
所述步驟41中,所述每一幀的輸出值矢量具體通過下面公式得到:
yk(t)=f(Lk(t))
其中,t表示第t幀,yk(t)表示所述輸出層中第k個節(jié)點的輸出值,所述輸出層中所有節(jié)點的輸出值構(gòu)成了第t幀的輸出值矢量y(t);f(·)表示sigmoid函數(shù),Lk(t)表示所述輸出層中第k個節(jié)點的輸入值,所述輸出層中所有節(jié)點的輸入值構(gòu)成了所述輸出層的輸入值矢量L(t),所述L(t)具體通過如下公式得到:
L(t)=W3z(t)
其中,W3表示連接第二隱含層到輸出層的權(quán)值矩陣,z(t)表示所述第二隱含層的輸出值矢量,所述z(t)的第j個分量zj(t)表示所述第二隱含層中第j個節(jié)點的輸出值,所述zj(t)通過下面公式得到:
zj(t)=f(Tj(t))
其中,Tj(t)表示所述第二隱含層中第j個節(jié)點的輸入值,所述第二隱含層中所有節(jié)點的輸入值構(gòu)成了所述第二隱含層的輸入值矢量T(t),所述T(t)具體通過如下公式得到:
T(t)=W2x(t)+W5p
其中,W2表示連接第一隱含層到第二隱含層的權(quán)值矩陣,W5表示連接第二輸入層到第二隱含層的權(quán)值矩陣,p表示所述韻律特征矢量,x(t)表示所述第一隱含層的輸出值矢量,所述x(t)的第i個分量xi(t)表示所述第一隱含層中第i個節(jié)點的輸出值,所述xi(t)通過下面公式得到:
xi(t)=f(Vi(t))
其中,Vi(t)表示所述第一隱含層中第i個節(jié)點的輸入值,所述第一隱含層中所有節(jié)點的輸入值構(gòu)成了所述第一隱含層的輸入值矢量V(t),所述V(t)通過如下公式得到:
V(t)=W1(f(t)T,s(t)T)T+W4xc(t)
其中,W1表示連接第一輸入層到第一隱含層的權(quán)值矩陣,(f(t)T,s(t)T)T表示第t幀的倒譜特征矢量f(t)和段統(tǒng)計量特征矢量s(t)相連接形成的新矢量,W4表示連接記憶層到第一隱含層的權(quán)值矩陣,xc(t)表示第t幀時所述記憶層的值,xc(t)具體通過下面公式得到:
xc(t)=x(t-1)
其中,x(t-1)表示第t-1幀時所述第一隱含層的輸出值矢量。
2.根據(jù)權(quán)利要求1所述的基于特征融合的聲調(diào)識別方法,其特征在于所述步驟41之前還包括:
步驟40:將第1幀時所述記憶層的值xc(1)設(shè)置為初始值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南理工大學(xué),未經(jīng)河南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710939527.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





