[發(fā)明專利]基于DIS?NV特征的情感識別方法在審
| 申請?zhí)枺?/td> | 201710607464.2 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN107316654A | 公開(公告)日: | 2017-11-03 |
| 發(fā)明(設(shè)計)人: | 趙歡;周曉曉;肖宇鋒;陳佐 | 申請(專利權(quán))人: | 湖南大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L15/06;G10L15/14;G10L15/08;G10L15/183 |
| 代理公司: | 湖南兆弘專利事務(wù)所(普通合伙)43008 | 代理人: | 鄒大堅,胡君 |
| 地址: | 410082 湖南省長沙市*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 dis nv 特征 情感 識別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自動情感識別技術(shù)領(lǐng)域,尤其涉及一種基于DIS-NV特征的情感識別方法。
背景技術(shù)
情感識別即是識別對話中的情感信息,以判別說話人的情感狀態(tài),通過情感的自動識別可以實現(xiàn)更為良好的人機交互,如人機交流、會話代理等。目前情感識別通常都是基于一個類別的處理方法,即認為在大腦中存在幾種基本的比較普遍的情感,如包括:高興、悲傷、驚喜、害怕、生氣、厭惡六大類情感,但是說話人情感狀態(tài)通常較為復(fù)雜,單一的情感表情或者有限的離散類別通常難以恰當?shù)孛枋鲈搹?fù)雜的情感狀態(tài),一種解決方法即是通過在多維空間中的連續(xù)情感標簽(即維度情感)來代替分類的情感,如由一個由效價(描述情感的積極和消極程度)和激勵(描述了情感的激烈程度)組成的兩維的情感空間,在各種連續(xù)情感模型中,描述最豐富的一個情感模型是一個四維的情感空間:效價、激勵、支配度(在對話中所表達的主導(dǎo)程度)以及期望值(描述期望以及意外程度)。為了簡化維度情感識別的過程,同時充分利用到已經(jīng)逐漸成熟的基于分類的情感識別的成果,有從業(yè)者將連續(xù)情感標簽量化到有限的離散類中,將連續(xù)的預(yù)測問題轉(zhuǎn)化成一個二分類識別問題(積極vs.消極),或者四類的識別問題等。
現(xiàn)有技術(shù)中,上述各類情感識別方法所使用的情感模型各不相同,但使用的音頻特征通常都是低級別描述符(LLD),包括如:與能量相關(guān)的特征、基頻特征、共振峰特征、線性預(yù)測系數(shù)以及梅爾倒譜系數(shù)等的聲學特征,再將統(tǒng)計函數(shù)應(yīng)用到上述特征以及上述特征的delta系數(shù)上,形成最終的情感特征;目前各種數(shù)據(jù)庫也均是使用上述幾種LLDs特征,例如AVEC2012語料庫是使用能量、頻譜、聲音相關(guān)作為LLD特征,而IEMOCAP語料庫中使用的LLD特征主要包含了能量、頻譜以及與基頻相關(guān)的信息。LLD特征的數(shù)量均非常大,基本在1000到2000之間,一方面,針對大量特征值的情感識別模型訓練,訓練難度大、所需訓練時間長,使得識別效率低;另一方面,特征數(shù)量過多還會在一定程度上會帶來大量的信息冗余,特征之間的依賴關(guān)系也難以有效控制,從而影響訓練的情感識別模型的精度。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題就在于:針對現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明提供一種明能夠充分利用不流利、非語言特性的語音文本實現(xiàn)情感識別,且具有實現(xiàn)方法簡單、識別效率以及精度高的基于DIS-NV特征的情感識別方法。
為解決上述技術(shù)問題,本發(fā)明提出的技術(shù)方案為:
一種基于DIS-NV特征的情感識別方法,步驟包括:
S1.DIS-NV特征集構(gòu)建:選取具有不流利特性的情感詞作為DIS特征詞、以及具有非語言特性的發(fā)聲類型作為NV特征類,構(gòu)建得到DIS-NV特征集;
S2.情感分類模型訓練:獲取對應(yīng)各類情感的訓練語音文本,將各所述訓練語音文本分別與所述DIS-NV特征集進行匹配,根據(jù)匹配結(jié)果提取得到對應(yīng)的DIS-NV特征值,并基于雙向時序信息采用BLSTM模型進行訓練,得到BLSTM(Bidirectional Long short term memory,雙向長短期記憶網(wǎng)絡(luò))分類模型;
S3.情感識別:獲取待識別語音文本,將待識別語音文本與所述DIS-NV特征集進行匹配,根據(jù)匹配結(jié)果提取得到對應(yīng)的DIS-NV特征值,并使用所述BLSTM分類模型進行識別,輸出情感識別結(jié)果。
作為本發(fā)明的進一步改進,所述DIS-NV特征值的提取步驟為:獲取待提取語音文本作為當前語音文本,依次讀取當前語音文本中的每個詞以及用于標記所述NV特征類的標記詞,并分別與所述DIS-NV特征集中各所述DIS特征詞、NV特征類進行匹配,若目標詞匹配成功,獲取目標詞在當前語音文本中的持續(xù)時間,根據(jù)獲取到的持續(xù)時間計算得到目標詞的DIS-NV特征值;否則目標詞對應(yīng)的所述DIS-NV特征值為0。
作為本發(fā)明的進一步改進:所述進行匹配具體預(yù)先構(gòu)建具有字符串匹配功能的匹配模塊,通過調(diào)用所述匹配模塊進行匹配。
作為本發(fā)明的進一步改進:所述根據(jù)獲取到的持續(xù)時間具體按照下式計算得到對應(yīng)的DIS-NV特征值;
Dd=td/Td;
其中,Dd為目標特征詞d所對應(yīng)的DIS-NV特征值,td為目標特征詞d對應(yīng)語音的持續(xù)時間,Td為目標特征詞d所在整個句子的持續(xù)時間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學,未經(jīng)湖南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710607464.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于繪制患者體內(nèi)結(jié)構(gòu)的醫(yī)學成像系統(tǒng)
- 在顯示器上顯示用戶信息的設(shè)備和方法
- 優(yōu)雅重啟方法、指定中間系統(tǒng)、鄰居路由器及廣播網(wǎng)絡(luò)
- 一種選舉指定中間系統(tǒng)的方法和路由器
- 一種循環(huán)水系統(tǒng)的容水機組
- 用于控制起動電機的方法和裝置
- 一種指定路由器選舉方法、裝置、路由器及通信系統(tǒng)
- 基于DIS?NV特征的情感識別方法
- 一株高效異源表達Disorazole Z的工程菌株和構(gòu)建該菌株的基因簇及其應(yīng)用
- 用于室內(nèi)定位的基于實時軌跡動態(tài)進行二維跳點修正方法





