[發明專利]語音情感識別的優選方法在審
| 申請號: | 201710642840.1 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107452404A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 劉明珠;李曉琴 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L15/02;G10L15/18;G06K9/62 |
| 代理公司: | 哈爾濱東方專利事務所23118 | 代理人: | 陳曉光 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 情感 識別 優選 方法 | ||
技術領域:
本發明涉及一種語音情感識別的優選方法。
背景技術:
目前語音是人與人之間溝通的橋梁,也是表達思想情感的工具,為了能使計算機可以像人一樣與人類交流,語音情感識別逐漸成為了智能人機交互領域的研究熱點,國外學者針對這方面做了大量研究,比如美國麻省理工學院MIT實驗室研究的情感機器人,IBM公司的藍眼計劃以及NEC公司研制出的一種能感知人類情感的花等,這些研究都為語音情感識別的研究奠定了良好的基礎。
國內在這項研究上起步比較晚,語音情感識別的正確率也比較低,但在語音情感識別方面的技術正在不斷追趕世界技術前沿,目前急需一種更好的相關參數選取方法來解決語音情感的識別,以提高其識別率。
發明內容:
本發明的目的是提供一種語音情感識別的優選方法。
上述的目的通過以下的技術方案實現:
一種語音情感識別的優選方法,該方法包括如下步驟:首先選取柏林數據集和中科院漢語情感語音庫作為情感識別的語音數據庫,所述的語音數據庫中包括高興、生氣、害怕、悲傷、平靜5種情感語音并對5種情感語音進行識別選定測試集和訓練集,其次再對5種情感語音進行特征參數的信號提取,在提取的特征參數信號中利用Fisher準則和最大熵原理結合的方法得出SVM核參數,再用SVM核參數訓練SVM,最后利用SVM優選后的核參數對語音情感信號進行識別。
所述的語音情感識別的優選方法,所述的特征參數的信號提取是在語音情感識別中采用韻律特征和音質特征這兩種方法相結合的方式進行的,并且找出3個主特征即基音頻率、振幅能量和共振峰的信號規律,再經統計學分析,即獲得基音頻率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
所述的語音情感識別的優選方法,所述的Fisher準則和最大熵原理結合的方法是:Fisher準則與樣本的類別間隔與類內間隔相關,最大熵原理與類內均勻分布程度有關,結合這二者的特點選取SVM核參數。
所述的語音情感識別的優選方法,所述的SVM即:支持向量機,SVM是一種基于統計學習理論的機器學習算法,SVM是基于線性分類器的原理,SVM可以用于解決線性與非線性樣本分類,其核心思想是將低維空間線性不可分的樣本點通過核函數映射至高維特征空間中,然后在特征空間中構造出最優分類超平面,這時數據在高維空間也可以被超平面分割,從而變得線性可分,因此要在特征空間中構造出最優超平面,并且使得各個樣本與最優超平面的距離最大。
有益效果:
1. 本發明采用的語音數據庫為柏林情感語音庫和中科院漢語情感語音庫,其中兩種數據庫采樣頻率都為16KHz,且是16bit均勻量化,其中柏林數據集是由柏林技術大學錄制,在高興,生氣,害怕,難過,中性、厭煩和厭惡7種感情狀態下錄制了535條情感語句,中科院漢語情感語音庫由中科院自動化所提供,其成員分別在高興,生氣,害怕,難過,中性和驚訝6種情感下錄制得到1200句語音情感,通過Fisher準則和最大熵原理結合的方法對韻律特征和音質特征相結合的方式進行語音信號的特征提取,即基音頻率、振幅能量和共振峰,使其提取后的SVM核參數優化效果更好。
本發明由于采用Fisher準則保證了期望樣本在特征空間中最大的類別間隔,而最大熵原理保障了類內均勻分布程度,使得SVM取得了最優核參數,通過分析基音頻率特征中的生氣和高興的基因頻率分布在150Hz到450Hz之間,而平靜和害怕大多分布于100Hz至350Hz之間,明顯小于生氣和高興兩種情感的基頻大小,振幅能量特征中的生氣和高興的平均能量值高于悲傷,共振峰特征中的高興和生氣的第一、第二和第三共振峰都比悲傷的高,且都處于相對穩定狀態,其結果表明,該方法有利于提高語音情感的識別,且達到了90.1%的平均識別率,高于國際同類型其它方法3.5%。
附圖說明:
附圖1是本發明基音頻率-高興的特征圖。
附圖2是本發明基音頻率-生氣的特征圖。
附圖3是本發明基音頻率-平靜的特征圖。
附圖4是本發明基音頻率-害怕的特征圖。
附圖5是本發明振幅能量-高興的特征圖。
附圖6是本發明振幅能量-生氣的特征圖。
附圖7是本發明振幅能量-悲傷的特征圖。
附圖8是本發明振幅能量-平靜的特征圖。
附圖9是本發明共振峰-高興的特征圖。
附圖10是本發明共振峰-生氣的特征圖。
附圖11是本發明共振峰-悲傷的特征圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710642840.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種說話人標記方法
- 下一篇:一種根據語音內容進行數據評價的方法及裝置





