[發明專利]一種基于交互式注意力模型的語音情感識別方法有效
| 申請號: | 202011521398.5 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112700796B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 陳仙紅;鮑長春 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/24;G10L25/30;G10L25/45;G10L25/03;G06F40/268;G06F40/284 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 交互式 注意力 模型 語音 情感 識別 方法 | ||
1.一種基于交互式注意力模型的語音情感識別方法,其特征在于,包括:
1)語音預處理:對輸入語音進行分幀加窗、活動語音檢測處理;提取每幀語音的梅爾倒譜特征和對數梅爾譜特征;活動語音檢測處理為通過計算每幀語音的能量,判斷該幀語音是否為靜音,若為靜音則去除該幀;
2)語音識別:將整條語音的梅爾倒譜特征輸入到語音識別器中,識別出該條語音對應的文本;
3)詞向量提取:根據步驟2)得到的語音對應的文本,提取文本中每個詞的詞向量;將第n個詞對應的詞向量記為整條語音的詞向量為N為該條語音中詞的個數;
4)強制對齊:根據步驟2)得到的語音對應的文本和語音的梅爾倒譜特征,得到每個詞對應的語音范圍,也就是每個詞對應的語音起始幀和結束幀;
5)詞級別聲學特征提取:將步驟4)得到的每個詞對應的語音范圍內的對數梅爾譜特征輸入到時延神經網絡并做池化;時延神經網絡的層數設置為2層到4層,每一層的節點數設置為64個到1024個,激活函數為ReLU函數;池化層對時延神經網絡輸出的每個詞對應的語音的所有幀的結果求平均,得到每個詞對應的聲學特征;將第n個詞對應的聲學特征記為整條語音詞級別的聲學特征為
6)表示學習:學習文本信息對應的情感表示Rt和聲學信息對應的情感表示Ra,具體包括以下幾個步驟:
6.1)將步驟3)和步驟5)得到的語音的詞向量Ft和詞級別聲學特征Fa輸入到交互式注意力模型中,得到文本對應的注意力輸出At和聲學對應的注意力輸出Aa;
6.2)將步驟6.1)得到的At輸入到神經網絡ht中,得到文本對應的情感表示Rt=ht(At);將步驟6.1)得到的Aa輸入到神經網絡ha中,得到聲學對應的情感表示Ra=Ra(Aa);Rt的第n列表示第n個詞對應的來自文本的情感表示,Ra的第n列表示第n個詞對應的來自聲學的情感表示;神經網絡ht設置為循環神經網絡;循環神經網絡共1層,輸入節點數為At的維度,輸出節點數為180,激活函數為ReLU函數;神經網絡ha設置為時延神經網絡;時延神經網絡共1層,輸入為Aa,輸出節點數為150,激活函數為ReLU函數;
7)模態融合:將文本信息對應的情感表示Rt和聲學信息對應的情感表示Ra進行拼接,輸入到卷積神經網絡中,再進行矩陣到向量的轉換,得到融合后的情感表示r;卷積神經網絡的層數為1層,對應的核函數的接收域為6*3,通道個數為5,激活函數為ReLU函數;
8)情感分類:將融合后的情感表示r輸入到一個全連接神經網絡中,網絡的層數為2層到4層,前幾層每層節點數為256個到6000個,激活函數為ReLU函數,最后一層為softmax層,輸出節點對應不同的情感狀態,網絡輸出為該條語音對應每種情感狀態的概率;最終識別結果即為概率最大的情感;
交互式注意力模型有兩種實現方法;
第一種實現方法具體包括以下步驟:
1)將詞向量Ft輸入到多層全連接神經網絡h1,h2和h3中,得到輸出h1(Ft),h2(Ft)和h3(Ft);h1,h2和h3的層數為3層,輸入節點數為詞向量的維度,輸出節點數為200,中間層節點數為512,激活函數為ReLU函數;將詞級別聲學特征Fa輸入到多層全連接神經網絡h4,h5和h6中,得到輸出h4(Fa),h5(Fa)和h6(Fa);h4,h5和h6的層數為3層,輸入節點數為詞級別聲學特征的維度,輸出節點數為168,中間層節點數為512,激活函數為ReLU函數;
2)權重計算:根據文本模態計算得到的權重Wt為
其中softmax表示softmax函數,dt表示h3(Ft)的特征維度,T表示轉置;在根據聲學模態計算得到的權重Wa為
其中da表示h4(Fa)的特征維度;
3)權重共享:根據文本模態對應的權重Wt和聲學模態對應的權重Wa,計算兩個模態共享的權重W為
4)相乘:得到文本對應的注意力輸出為At=h1(Ft)W,聲學對應的注意力輸出為Aa=h6(Fa)W;
第二種實現方法具體包括以下步驟:
1)拼接:將詞向量Ft和詞級別聲學特征Fa進行拼接得到F;也就是將第n個詞對應的詞向量和第n個詞對應的聲學特征拼接為一個特征fn,整條語音對應的拼接特征為F=[f1,…,fn,…,fN];
2)將詞向量Ft輸入到多層全連接神經網絡h1和h2中,得到輸出h1(Ft)和h2(Ft);h1和h2的層數為3層,輸入節點數為詞向量的維度,輸出節點數設置為200,中間層節點數為512,激活函數為ReLU函數;將詞級別聲學特征Fa輸入到多層全連接神經網絡h5和h6中,得到輸出h5(Fa)和h6(Fa);h5和h6的層數為3層,輸入節點個數為詞級別聲學特征的維度,輸出節點數設置為168,中間層節點數為512,激活函數為ReLU函數;將拼接特征F輸入到多層全連接神經h3和h4中,得到輸出h3(F)和h4(F);h3和h4的層數為3層,輸入節點個數為詞向量的維度加上詞級別聲學特征的維度,中間層節點數為512,激活函數為ReLU函數;h3的輸出節點數設置為200,h4的輸出節點數設置為168;
3)權重計算:根據文本模態計算得到的權重Wt為
其中softmax表示softmax函數,dt表示h3(Ft)的特征維度,T表示轉置;根據聲學模態計算得到的權重Wa為
其中da表示h5(Fa)的特征維度;
4)相乘:得到文本對應的注意力輸出為At=h1(Ft)Wt,聲學對應的注意力輸出為Aa=h6(Fa)Wa。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011521398.5/1.html,轉載請聲明來源鉆瓜專利網。





