[發(fā)明專利]一種基于敏感度可調(diào)的語音情感識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810305527.3 | 申請日: | 2018-04-04 |
| 公開(公告)號: | CN108564942B | 公開(公告)日: | 2021-01-26 |
| 發(fā)明(設(shè)計)人: | 王蔚;馮亞琴 | 申請(專利權(quán))人: | 南京師范大學(xué) |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L15/16;G10L15/26;G10L25/21;G10L25/30;G10L25/63 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210046 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 敏感度 可調(diào) 語音 情感 識別 方法 系統(tǒng) | ||
1.一種基于敏感度可調(diào)的語音情感識別方法,其特征在于,包括如下步驟:
(1)接收用戶語音信號,提取語音的聲學(xué)特征矢量,具體包括:
(1.1)將音頻分割為幀,對每個語音句子提取幀級的低層次聲學(xué)特征;
(1.2)應(yīng)用全局統(tǒng)計函數(shù),將每個語音句子中的每一組時長不等的基礎(chǔ)聲學(xué)特征轉(zhuǎn)化為等長的靜態(tài)特征,得到多維度的聲學(xué)特征矢量;
其中,將音頻分割為幀,對每個語音句子提取幀級的低層次聲學(xué)特征包括語音預(yù)處理,所述語音預(yù)處理具體包括:
(1.1.1)利用預(yù)加重數(shù)字濾波器對音頻進(jìn)行預(yù)加重,使語音高頻部分得以提升;
(1.1.2)對預(yù)加重后的音頻數(shù)據(jù)進(jìn)行加窗分幀處理,所述分幀采用交疊分段的方法,前一幀與后一幀的交疊部分稱為幀移,幀移與幀長的比值取1/2,分幀是用可移動的有限長度窗口進(jìn)行加權(quán)和利用窗函數(shù)ω(n)在原始語音信號s(n)之上疊加來實現(xiàn),公式如下:
sω(n)=s(n)*ω(n)
其中,sω(n)就是加窗分幀處理后的語音信號,并且窗函數(shù)使用漢明窗函數(shù),表達(dá)式如下:
其中,N為幀長;
(1.1.3)去除靜音段和噪聲段,其中利用短時能量和短時過零率進(jìn)行兩級判決,來獲得端點檢測結(jié)果,具體包括:
(A)計算短時能量:
其中,si(n)為每一幀的信號,i表示幀數(shù),N為幀長;
(B)計算短時過零率:
其中,
(C)計算語音和噪聲的平均能量,設(shè)置一高一低兩個能量門限T1和T2,高門限確定語音開端,低門限判斷語音結(jié)束點;
(D)計算背景噪聲的平均過零率,設(shè)置過零率門限T3,用于判斷語音前端的清音位置和后端的尾音位置,從而完成輔助判決;
(2)將語音信號轉(zhuǎn)換為文本信息,獲取語音的文本特征矢量,具體包括:
(2.1)利用文本數(shù)據(jù)集對不同種情感分別進(jìn)行詞頻與逆詞頻統(tǒng)計;
(2.2)根據(jù)統(tǒng)計結(jié)果,每種情感選取前N個詞,合并去除重復(fù)詞后形成去除重復(fù)詞,合并成基本詞匯表;
(2.3)判斷語音文本中的每個詞在每個樣本詞匯表中是否出現(xiàn),出現(xiàn)為1,不出現(xiàn)為0,得到語音文本特征矢量;
(3)將聲學(xué)特征矢量和文本特征矢量輸入語音情情感識別模型和文本情感識別模型中,分別得到不同情感的概率值,其中所述語音情感識別模型和文本情感識別模型是使用如下卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別對聲音樣本數(shù)據(jù)集和文本樣本數(shù)據(jù)集進(jìn)行訓(xùn)練而得到:
(a)分類器結(jié)構(gòu)為兩個卷積層加上一個全連接層,第一層使用32個卷積核,第二層卷積層采用64個卷積核,兩層都采用一維的卷積層,卷積核的窗長度為10,卷積步長為1,補(bǔ)零策略采用same,保留邊界處的卷積結(jié)果;
(b)第一、第二層的激活函數(shù)采用relu函數(shù),訓(xùn)練時設(shè)置變量dropoutrate為0.2;
(c)池化層采用最大值池化方式,池化窗口大小設(shè)為2,下采樣因子設(shè)為2,補(bǔ)零策略采用上下左右補(bǔ)0的方法,保留邊界處的卷積結(jié)果;
(d)最后的全連接層選用softmax激活函數(shù)對所有的dropout層的輸出進(jìn)行回歸得到情感類型的輸出概率;
(4)設(shè)置不同情感的權(quán)值,所述情感包括高興、生氣、悲傷和平靜,結(jié)合不同情感的概率值,加權(quán)融合后,得到語音情感的最終判斷識別結(jié)果,具體包括:
(4.1)通過語音情感識別模型對語音信號進(jìn)行處理,得到高興的概率SH、生氣的概率SA、悲傷的概率SS和平靜的概率SM;
(4.2)通過文本情感識別模型對語音信號進(jìn)行處理,得到高興的概率TH、生氣的概率TA、悲傷的概率TS和平靜的概率TM;
(4.3)設(shè)置高興的權(quán)值為PH、生氣的權(quán)值為PA、悲傷的權(quán)值為PS和平靜的權(quán)值為PM;
(4.4)通過下述公式計算情感的判斷識別結(jié)果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分別表示加權(quán)后的高興的概率、生氣的概率、悲傷的概率和平靜的概率。
2.一種用于實現(xiàn)權(quán)利要求1所述的基于敏感度可調(diào)的語音情感識別方法的語音情感識別系統(tǒng),其特征在于,包括如下模塊:
聲學(xué)特征矢量模塊,用于接收用戶語音信號,提取語音的聲學(xué)特征矢量;
文本特征矢量模塊,用于將語音信號轉(zhuǎn)換為文本信息,獲取語音的文本特征矢量;
情感概率計算模塊,將聲學(xué)特征矢量和文本特征矢量輸入語音情情感識別模型和文本情感識別模型中,分別得到不同情感的概率值;
情感權(quán)值設(shè)置模塊,設(shè)置調(diào)整不同情感的權(quán)值;
情感判斷識別模塊,根據(jù)每一情感類別的概率,加權(quán)融合后,得到語音情感的最終判斷識別結(jié)果;
其中,所述聲學(xué)特征矢量模塊功能如下:
(1.1)將音頻分割為幀,對每個語音句子提取幀級的低層次聲學(xué)特征;
(1.2)應(yīng)用全局統(tǒng)計函數(shù),將每個語音句子中的每一組時長不等的基礎(chǔ)聲學(xué)特征轉(zhuǎn)化為等長的靜態(tài)特征,得到多維度的聲學(xué)特征矢量;
所述文本特征矢量模塊功能如下:
(2.1)利用文本數(shù)據(jù)集對不同種情感分別進(jìn)行詞頻與逆詞頻統(tǒng)計;
(2.2)根據(jù)統(tǒng)計結(jié)果,每種情感選取前N個詞,合并去除重復(fù)詞后形成去除重復(fù)詞,合并成基本詞匯表;
(2.3)判斷語音文本中的每個詞在每個樣本詞匯表中是否出現(xiàn),出現(xiàn)為1,不出現(xiàn)為0,得到語音文本特征矢量;
所述情感判斷識別模塊功能如下:
(4.1)通過語音情感識別模型對語音信號進(jìn)行處理,得到高興的概率SH、生氣的概率SA、悲傷的概率SS和平靜的概率SM;
(4.2)通過文本情感識別模型對語音信號進(jìn)行處理,得到高興的概率TH、生氣的概率TA、悲傷的概率TS和平靜的概率TM;
(4.3)設(shè)置高興的權(quán)值為PH、生氣的權(quán)值為PA、悲傷的權(quán)值為PS和平靜的權(quán)值為PM;
(4.4)通過下述公式計算情感的判斷識別結(jié)果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分別表示加權(quán)后的高興的概率、生氣的概率、悲傷的概率和平靜的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京師范大學(xué),未經(jīng)南京師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810305527.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





