[發明專利]基于特征選擇和優化的語音情感識別方法在審
| 申請號: | 201811525935.6 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109493886A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 陳建春;李歡歡;王金鵬;吳琴;乜亮 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/24;G10L25/30;G10L25/45 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 王品華;朱紅星 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音情感 特征參數 卷積神經網絡 特征選擇 原始語音 準確率 語音 預處理 提取預處理 端點檢測 技術識別 情感識別 情感特征 情感語音 人機交互 手機通訊 算法選擇 隨機森林 刑事偵查 醫學診斷 預加重 分幀 加窗 算法 優化 數據庫 應用 分析 | ||
本發明公開了一種基于特征選擇和優化的語音情感識別方法,主要解決現有技術識別語音情感準確率較低的問題。其實現方案包括:1)建立情感語音數據庫,得到原始語音;2)對原始語音分別進行預加重、分幀加窗以及端點檢測的預處理;3)提取預處理后語音的情感特征參數;4)用隨機森林算法選擇最優的語音情感特征參數;5)將最優語音情感特征參數輸入到訓練好的卷積神經網絡,得到語音的情感識別結果。本發明通過分析語音情感特征的重要性,得到了最優的語音情感特征參數,提升了卷積神經網絡算法對語音情感識別的準確率,可應用于手機通訊、人機交互、醫學診斷和刑事偵查中對說話人情感的識別。
技術領域
本發明屬于語音信號處理技術領域,特別涉及一種語音情感識別方法,可用于手機通訊、人機交互、醫學診斷和刑事偵查。
背景技術
最早與語音情感識別相關的研究出現在20世紀80年代中期,這是人類第一次使用聲學特征來研究分析情感特征。1999年Moriyama提出,語音和情感之間存在線性關聯模型,并實現了語音情感在電子商務中的初步應用。進入21世紀以來,語音情感識別研究工作在多個領域的各個方面都得到了發展,逐步應用于人機交互、手機通訊和臨床醫學等領域,引起了世界范圍內的關注。
語音情感識別,就是語音的情感特征提取及情感語音的識別過程。語音的情感識別是目前信號處理及模式識別領域的一個新的研究熱點,在許多領域有著重要的意義,涉及領域有信號處理、心理學研究、虛擬現實技術、新型人機交互技術、模式識別、信息論、發聲機理、聽覺機理、人工智能等。盡管語音情感分析可以應用于不同的領域,但其實現的方案卻大體是一致的。語音情感分析涉及到多種技術與算法,例如,情感特征參數提取、選擇以及語音情感識別。其中,情感特征的提取涉及倒譜法、LPC法等信號處理方法;情感特征的選擇有主元分析法、線性判別分析法等降維方法;語音的情感識別與機器學習以及深度學習等算法緊密相關。
盡管世界各國的研究者們在語音情感研究的領域也取得了許多的研究成果,但是基于語音情感識別的研究還存在不少的困難,遠不能進行實際的應用。因此,繼續深入研究語音情感識別是具有重要的意義的。
幾十年來,研究者們在語音情感領域的研究取得了很大的進展,但是在研究特征的選擇和情感模式的識別時都存在著很多的問題。例如,在基于PCA和SVM的普通話語音情感識別方法中,其情感特征選擇算法為主成分分析PCA,用多個SVM進行語音的情感識別,由于PCA算法不適于對非高斯分布的樣本進行特征選擇,因而這種支持向量機SVM的語音情感識別方法只適用于樣本量較少的情況,對于樣本量大的情況其核函數映射維度非常高,計算復雜度高,語音情感識別率低,而且對于非線性問題其核函數的選擇由于沒有通用標準,選擇難度大。又如,最近幾年出現的卷積神經網絡CNN語音情感識別方法,由于僅使用了梅爾頻率倒譜系數MFCC、語譜圖這一類譜特征,沒有加入音質特征和韻律特征,依然不能得到更準確的語音情感識別率。
發明內容
本發明的目的在于針對上述現有技術的缺陷,提出一種基于特征選擇和優化的語音情感識別方法,以提高情感識別準確率。
本發明的技術方案是:通過對語音情感特征的選擇優化,實現對語音情感識別,其實現步驟包括如下:
(1)從casia漢語情感語料庫中選擇憤怒、恐懼、高興和悲傷這四種原始語音,形成語音數據庫,這四種語音分別對應四個類別標簽;
(2)對原始語音依次進行預加重、加窗分幀和端點檢測的預處理,得到預處理后的語音信號x(n);
(3)提取預處理后語音信號x(n)的基音頻率F,短時能量E,短時平均過零率Z,第一共振峰頻率F1、第二共振峰頻率F2和梅爾頻率倒譜系數C,得到語音情感的六種特征參數;
(4)提取到語音的六種情感特征參數后,用隨機森林模型評估各個特征參數的重要性,刪除不重要的特征參數,得到最優的情感特征參數組合:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811525935.6/2.html,轉載請聲明來源鉆瓜專利網。





