[發(fā)明專利]一種考慮語音中多線性群組稀疏特性的情緒特征提取方法有效
| 申請?zhí)枺?/td> | 201210091525.1 | 申請日: | 2012-03-31 |
| 公開(公告)號: | CN102592593A | 公開(公告)日: | 2012-07-18 |
| 發(fā)明(設(shè)計)人: | 吳強;劉琚;孫建德 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L19/06 |
| 代理公司: | 濟南金迪知識產(chǎn)權(quán)代理有限公司 37219 | 代理人: | 寧欽亮 |
| 地址: | 250100 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 考慮 語音 線性 稀疏 特性 情緒 特征 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于提高語音情緒識別性能的語音情緒特征提取方法,屬于語音信號處理技術(shù)領(lǐng)域。
背景技術(shù)
語音是人們在日常生活中進行交流的最便捷的方式之一,這也使得研究人員積極探索如何利用語音作為人和機器之間進行交流的工具。除了傳統(tǒng)的語音識別等人機交互模式外,說話人的情緒也是一種重要的交互信息,機器能夠自動識別理解說話人的情緒是人機交互智能化的重要標志之一。
語音情緒識別在信號處理和智能人機交互領(lǐng)域具有重要的價值,有著很多潛在的應(yīng)用。在人機交互方面,通過計算機識別說話人的情緒可以提高系統(tǒng)的親切性和準確性,例如遠程教育系統(tǒng)可以通過識別學(xué)生的情緒及時調(diào)整課程,從而提升教學(xué)效果;在電話呼叫中心和移動通信中,可以及時獲取用戶的情緒信息,提高服務(wù)的質(zhì)量;車載系統(tǒng)可以通過情緒識別檢測司機的精力是否集中,并做出相應(yīng)的輔助警示。在醫(yī)學(xué)方面,基于語音的情緒識別可以作為一種工具,幫助醫(yī)生對病人的病情進行診斷。
對于語音情緒識別來說,一個重要的問題就是如何提取出有效的特征用來表示不同的情緒。按照傳統(tǒng)的特征提取方法,通常會將一段語音信號分成多幀,以便得到近似平穩(wěn)的信號。從每一幀獲取的周期性特征稱為局部特征,例如基音、能量等,其優(yōu)點是現(xiàn)有的分類器能夠利用局部特征較為準確的估計出不同情緒狀態(tài)的參數(shù),缺點是特征維數(shù)和樣本數(shù)較多,影響到特征提取和分類的速度。通過對整個句子的特征進行統(tǒng)計得到特征稱為全局特征,其優(yōu)點是能夠獲得較好的分類精度和速度,但是丟失了語音信號的時序信息,容易出現(xiàn)訓(xùn)練樣本不足的問題。一般情況下,語音情緒識別常用的特征有以下幾類:連續(xù)聲學(xué)特征、譜特征、基于Teager能量算子的特征等等。
根據(jù)心理學(xué)和韻律學(xué)等的研究結(jié)果,說話人的情緒在語音中最直觀的特征就是韻律連續(xù)特征,如基音、能量、說話的速率等。對應(yīng)的全局特征包括基音或者能量的均值、中位數(shù)、標準偏差、最大值、最小值等,以及第一、第二共振峰等等。
譜特征提供了語音信號中的有用的頻率信息,也是語音情緒識別中重要的特征提取方式。常用的譜特征包括線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、美爾頻率倒譜系數(shù)(MFCC)、感知加權(quán)線性預(yù)測(PLP)等等。
語音是由發(fā)聲系統(tǒng)中的非線性空氣流產(chǎn)生的,Teager能量算子(TEO)是Teager等人提出的一種能夠快速跟蹤聲門周期內(nèi)信號能量變化的運算操作,用于分析語音的精細結(jié)構(gòu)。不同的情緒狀態(tài)下,肌肉的伸縮情況會影響發(fā)聲系統(tǒng)中空氣流的運動,根據(jù)Bou-Ghazale等人的研究結(jié)果可以知道,基于TEO的特征可以用來檢測語音中的緊張情緒。
根據(jù)眾多實驗評估結(jié)果,對于語音情緒識別來說,要針對不同的分類任務(wù)來選擇合適的特征表征,基于Teager能量的特征適合于檢測語音信號中的緊張情緒;連續(xù)聲學(xué)特征則適合區(qū)分高喚醒情緒(high-arousal?emotion)和低喚醒情緒(low-arousal?emotion);而對于多類的情緒分類任務(wù),譜特征是最適合的語音表征,如果將譜特征與連續(xù)聲學(xué)特征結(jié)合,或者考慮多種因素的關(guān)聯(lián)分析,也能夠達到提高分類精度的目的。
在語音情緒特征提取和選擇完成之后的另外一個重要階段就是分類。目前模式識別領(lǐng)域中各種分類器都被用來對語音情緒特征進行分類,包括隱馬爾科夫模型(HMM)、高斯混合模型(GMM)、支持向量機(SVM)、線性判別分析(LDA)和集成分類器等等。隱馬爾科夫模型是在語音情緒識別中應(yīng)用的最廣泛的識別器之一,這得益于它在語音信號中的普遍應(yīng)用,尤其適用于處理具有時序結(jié)構(gòu)的數(shù)據(jù),從目前的研究結(jié)果來看,基于隱馬爾科夫模型的情緒識別系統(tǒng)能夠提供較高分類準確率。高斯混合模型可以看作是只有一個狀態(tài)的隱馬爾科夫模型,非常適合于對多元分布進行建模,Breazeal等人利用GMM作為分類器應(yīng)用于KISMET語音數(shù)據(jù)庫,對五類情緒進行分類識別。支持向量機已經(jīng)被廣泛應(yīng)用模式識別領(lǐng)域,其基本原理是通過核函數(shù)將特征投影到高維空間使得特征線性可分,相比HMM和GMM,它具有訓(xùn)練算法全局最優(yōu)以及存在依賴于數(shù)據(jù)的泛化邊界的優(yōu)點,不少研究結(jié)果是利用支持向量機作為語音情緒識別的分類器并取得了較好的分類效果。
如圖1所示,傳統(tǒng)的基于譜特征的語音情緒識別方法通常采用以下步驟:
1)對輸入的語音信號進行預(yù)處理,包括加窗、濾波、預(yù)加重等;
2)對信號進行短時傅立葉變換,通過美爾三角窗進行濾波,然后求對數(shù)譜(取log);
3)利用離散余弦變換計算倒譜,然后加權(quán),求倒譜均值減,計算差分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210091525.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 標志控制請求代理仲裁的方法和系統(tǒng)
- 信號處理方法與設(shè)備以及記錄介質(zhì)
- 一種考慮能量傳輸?shù)闹欣^選擇方法
- 一種考慮電網(wǎng)分區(qū)優(yōu)化運行的城市電網(wǎng)規(guī)劃方法
- 一種定位考慮攻擊精度的骨干鏈路DDoS攻擊目標鏈路的方法
- 基于全局策略管理節(jié)點網(wǎng)絡(luò)故障的程序
- 基于本地策略管理節(jié)點網(wǎng)絡(luò)故障的程序
- 考慮互補約束的潮流計算方法及裝置
- 考慮穩(wěn)態(tài)約束和暫態(tài)約束的聯(lián)絡(luò)線功率可行域刻畫方法
- 土結(jié)作用的變壓器本體地震放大系數(shù)確定及抗震評估方法





