[發(fā)明專利]基于TF-LSTM的CFFD提取方法、語(yǔ)音情感識(shí)別方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201811258369.7 | 申請(qǐng)日: | 2018-10-26 |
| 公開(kāi)(公告)號(hào): | CN109036467B | 公開(kāi)(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 衛(wèi)偉;李曉飛;吳聰;柴磊 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G10L25/63 | 分類號(hào): | G10L25/63;G10L25/30;G10L25/18;G10L25/03 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 tf lstm cffd 提取 方法 語(yǔ)音 情感 識(shí)別 系統(tǒng) | ||
1.基于TF-LSTM的CFFD提取方法,其特征是,包括以下步驟:
構(gòu)造混合深度神經(jīng)網(wǎng)絡(luò)模型;
將預(yù)先提取的256x256維頻域特征輸入到構(gòu)造的混合深度神經(jīng)網(wǎng)絡(luò)模型提取CFFD;
所述混合深度神經(jīng)網(wǎng)絡(luò)模型包括:一個(gè)輸入層、五層卷積層、三層最大池化層、兩層全連接層以及一個(gè)LSTM模塊;
第一卷積層C1之后是第一最大池化層;第二卷積層C2之后再次是第二最大池層;接著是第三、第四和第五層卷積層接著是第三最大池層;第五層卷積層C5之后是兩個(gè)維度均為4096維的全連接層;
全連接層之后拼接一個(gè)LSTM模塊,所述LSTM模塊有一個(gè)隱含層,隱含層的輸入是4096維,輸出也是4096維, LSTM的輸出作為網(wǎng)絡(luò)的輸出,整個(gè)網(wǎng)絡(luò)的輸出為4096維,得到CFFD;
提取頻域特征的方法如下:
步驟B.1),對(duì)語(yǔ)音信號(hào)重采用,采樣頻率為16khz;
步驟B.2),對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,為保證幀與幀之間之間的平滑過(guò)渡,對(duì)語(yǔ)音信號(hào)交疊分幀,幀長(zhǎng)為512點(diǎn),幀疊為256點(diǎn),加漢明窗,得到單幀的短時(shí)信號(hào)x(n);
步驟B.3),對(duì)每幀信號(hào)進(jìn)行快速傅里葉變換,得到頻域數(shù)據(jù)X(i,k);
步驟B.4),求取65維的頻域特征,分別為:1維平滑基頻,1維濁音概率,1維過(guò)零率,14維MFCC、1維均方能量,28維聲譜濾波,15維頻譜能量,1維局部頻率抖動(dòng),1維幀間頻率抖動(dòng),1維局部振幅微擾和1維諧噪比;
步驟B.5),調(diào)整為256x256維的頻域特征。
2.根據(jù)權(quán)利要求1所述的基于TF-LSTM的CFFD提取方法,其特征是,
所述混合深度神經(jīng)網(wǎng)絡(luò)第一卷積層C1采用96個(gè)尺寸為15×3的卷積核,步長(zhǎng)設(shè)定為3×1,之后是具有步長(zhǎng)為2的尺寸為3×1的最大池化層;第二卷積層C2具有256個(gè)尺寸大小為9×3的卷積核且步長(zhǎng)為1;第二卷積層C2之后再次是一個(gè)尺寸大小為3×1的最大池層且步長(zhǎng)為1;
第三卷積層C3有384個(gè)尺寸為7×3卷積核,C4有384個(gè)尺寸為7×1的內(nèi)核;
最后的卷積層C5包含256個(gè)尺寸大小為7×1的卷積核,接著是尺寸大小為3×1的最大池層;卷積層C5之后是兩個(gè)維度均為4096維的全連接層。
3.基于TF-LSTM的語(yǔ)音情感識(shí)別方法,其特征是,包括以下步驟:
根據(jù)預(yù)先提取的語(yǔ)音信號(hào)的時(shí)域上下文信息,生成CFTD;
構(gòu)造混合深度神經(jīng)網(wǎng)絡(luò)模型;
將預(yù)先提取的256x256維的頻域特征輸入到構(gòu)造的混合深度神經(jīng)網(wǎng)絡(luò)模型提取CFFD;
所述混合深度神經(jīng)網(wǎng)絡(luò)模型包括:一個(gè)輸入層、五層卷積層、三層最大池化層、兩層全連接層以及一個(gè)LSTM模塊;
第一卷積層C1之后是第一最大池化層;第二卷積層C2之后再次是第二最大池層;接著是第三、第四和第五層卷積層接著是第三最大池層;第五層卷積層C5之后是兩個(gè)維度均為4096維的全連接層;
全連接層之后拼接一個(gè)LSTM模塊,所述LSTM模塊有一個(gè)隱含層,隱含層的輸入是4096維,輸出也是4096維, LSTM的輸出作為網(wǎng)絡(luò)的輸出,整個(gè)網(wǎng)絡(luò)的輸出為4096維,得到CFFD;
將CFTD和CFFD兩種特征進(jìn)行融合,訓(xùn)練線性SVM分類器,獲得最終的語(yǔ)音情感識(shí)別結(jié)果;
提取的頻域特征的方法如下:
步驟B.1),對(duì)語(yǔ)音信號(hào)重采用,采樣頻率為16khz;
步驟B.2),對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,為保證幀與幀之間之間的平滑過(guò)渡,對(duì)語(yǔ)音信號(hào)交疊分幀,幀長(zhǎng)為512點(diǎn),幀疊為256點(diǎn),加漢明窗,得到單幀的短時(shí)信號(hào)x(n);
步驟B.3),對(duì)每幀信號(hào)進(jìn)行快速傅里葉變換,得到頻域數(shù)據(jù)X(i,k);
步驟B.4),求取65維的頻域特征,分別為:1維平滑基頻,1維濁音概率,1維過(guò)零率,14維MFCC、1維均方能量,28維聲譜濾波,15維頻譜能量,1維局部頻率抖動(dòng),1維幀間頻率抖動(dòng),1維局部振幅微擾和1維諧噪比;
步驟B.5),調(diào)整為256x256維的頻域特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811258369.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于高階長(zhǎng)短期記憶網(wǎng)絡(luò)的系統(tǒng)和方法
- 基于深度學(xué)習(xí)LSTM的空調(diào)故障診斷方法
- 基于注意力機(jī)制的時(shí)間序列預(yù)測(cè)方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于PCA-LSTM網(wǎng)絡(luò)的廢水處理智能監(jiān)控方法
- 一種基于FAF-LSTM深度神經(jīng)網(wǎng)絡(luò)的居民負(fù)荷預(yù)測(cè)方法及系統(tǒng)
- 用于預(yù)測(cè)血糖水平的循環(huán)神經(jīng)網(wǎng)絡(luò)裝置和系統(tǒng)
- 基于情景LSTM結(jié)構(gòu)網(wǎng)絡(luò)的微博情感分析方法
- 語(yǔ)音信號(hào)處理方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 基于約束并行LSTM分位數(shù)回歸的電力負(fù)荷概率預(yù)測(cè)方法
- 基于深度網(wǎng)絡(luò)AS-LSTM的命名實(shí)體識(shí)別系統(tǒng)及識(shí)別方法





