[發明專利]一種基于倒譜分離信號的非特定人語音情感識別方法有效
| 申請號: | 201711434048.3 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108154879B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 胡維平;郝梓嵐;王艷 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/26;G10L21/0272;G10L25/24 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 周雯 |
| 地址: | 541004 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分離 信號 特定 人語 情感 識別 方法 | ||
本發明公開了一種基于倒譜分離信號的非特定人語音情感識別方法,具體是:對情感語音庫進行預處理;對預處理后的情感語音庫提取傳統特征;對處理后的情感語音庫的語音信號進行倒譜域分離與重構;對重構后的語音信號進行特征提取,得到重構后的情感語音庫;將經過步驟S4后的重構后的情感語音庫分成訓練集和測試集,訓練集采用SVM分類器進行訓練后,將測試集輸入訓練后的訓練集中,進行語音識別后,輸出判決結果;該識別方法可以有效提高非特定人語音情感識別率。
技術領域
本發明涉及非特定人語音識別技術領域,具體是一種基于倒譜分離信號的非特定人語音情感識別方法。
背景技術
聲門與聲道信號都包含了豐富的情感信息,由于個人聲道的差異,通常聲道信息則更多的包含了個人特征,這對于我們非特定人的情感識別工作產生了很多的干擾。在之前的譜特征提取工作之中,我們是對語音信號的整體信號進行特征提取,這類特征攜帶了大量的說話人的個人信息。這種特征對于特定人的情感識別往往是有效的。但是對于非特定人的情感識別效果則不如特定人。
發明內容
本發明的目的在于克服現有技術的不足,而提供一種基于倒譜分離信號的非特定人語音情感識別方法,該方法保留聲帶信息并摒棄一部分的聲道信息,同時尋找最佳分離點,最后對處理后的信號提取特征,可以有效提高非特定人語音情感識別率。
實現本發明目的的技術方案是:
一種基于倒譜分離信號的非特定人語音情感識別方法,具體包括如下步驟:
S1.對情感語音庫進行預處理;
S2.對預處理后的情感語音庫提取傳統特征;
S3.對處理后的情感語音庫的語音信號進行倒譜域分離與重構;
S4.對重構后的語音信號進行特征提取,得到重構后的情感語音庫;
S5.將經過步驟S4后的重構后的情感語音庫分成訓練集和測試集,訓練集采用SVM分類器進行訓練后,將測試集輸入訓練后的分類器中,進行語音識別后,輸出判決結果;
經過上述步驟,完成非特定人語音的情感識別。
步驟S1中,所述的情感語音庫,含有7種情感,采用16Khz采樣率,8bit量化,對情感語音庫進行分幀加窗處理。
所述的7種情感包括中性、生氣、害怕、高興、悲傷、厭惡、無聊。
所述的分幀,取10--30ms內進行分幀。
所述的加窗,采用漢明窗。
步驟S2中,所述的提取傳統特征,是對分幀后的情感語音庫的語音進行傳統聲學特征的提取,采用256點幀長、幀移128點,提取的聲學特征包括:韻律特征參數提取、聲音質量特征提取、非線性特征提取、譜特征提取;
韻律特征參數提取,包括:基音頻率的均值、短時能量均值和過零率變化率;
聲音質量特征提取,包括:頻率微擾熵和振幅微擾熵;
非線性特征提取,包括:Hurst指數;
譜特征提取,包括:梅爾頻域倒譜系數(MFCC)、線性預測系數LPC和非線性梅爾頻域參數(NFD_Mel);
所述的梅爾頻域倒譜系數(MFCC),是提取12維MFCC特及其一階差分共24維,然后計算其平均值。
所述的線性預測系數LPC,是提取12維LPC,并計算其平均值;
所述的非線性梅爾頻域參數(NFD_Mel),具體的計算步驟為:
S2-1.首先對S1分幀后的每幀信號做短時傅里葉變換,然后加入Teager能量算子,并取頻譜幅度做2次方得到能量譜;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711434048.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:控制監控設備的方法及裝置
- 下一篇:能實時分辨環境噪音進行語音識別的機器人





