[發明專利]基于方向自注意力機制和雙向長短時網絡的語音情感識別有效
| 申請號: | 201910555688.2 | 申請日: | 2019-06-25 |
| 公開(公告)號: | CN110400579B | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 李冬冬;王喆;孫琳煜;方仲禮;杜文莉;張靜 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/27;G10L25/03;G10L25/24;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 方向 注意力 機制 雙向 長短 網絡 語音 情感 識別 | ||
1.一種基于方向自注意力機制和雙向長短時網絡的語音情感識別系統,其特征在于,包括如下步驟:
1)對原始的音頻信號樣本提取聲學特征,得到提取特征后的語音訓練集數據;
2)所述提取特征后的語音訓練集數據為其中N表示訓練樣本的數量,yi表示情感的類別,分別輸入到正向長短時記憶網絡和反向長短時記憶網絡中,得到兩個方向的輸出特征,分別為輸出正向特征和反向特征
3)將所輸出的正向特征和反向特征分別做三次一維卷積,得到卷積后的三維特征映射矩陣輸出其中正向的三維特征映射矩陣定義為反向的三維特征映射矩陣定義為
4)對步驟3)所得到的三維特征映射矩陣做自注意力機制操作,對Q,K,V的最后一個維度進行分割得到三個四維的特征矩陣,將這三個四維矩陣定義為其中第三維i的大小為對所得到的Q′,K′,V′做Scaled Dot-Product Attention運算,用公式定義為:
O=W*V′
合并所得輸出O的第三維得到三維數據O′,正向自注意力加權后的輸出定義為反向自注意力加權后的輸出定義為
5)對所得到的正向自注意力加權后的輸出和反向自注意力加權后的輸出分別做均值池化操作得到和并將所得到的和進行拼接,該操作過程表示為:
6)將所得的拼接后的結果S輸入到softmax層中,然后將softmax層的輸出和類標一起輸入到交叉熵損失函數中,通過反向傳播算法調整整個網絡結構,交叉熵損失函數定義為:其中H為類別數,N為樣本個數。
2.根據權利要求1所述的基于方向自注意力機制和 雙向長短時網絡的語音情感識別系統,其特征在于:1)所述原始的音頻信號樣本來自國際語音情感數據庫IEMOCAP;所述原始的音頻信號樣本的聲學特征由opensmile工具箱提??;所述原始的音頻信號樣本的聲學特征包括韻律學特征:過零率和能量,譜相關特征:梅爾頻率倒譜系數、頻譜滾降點、頻譜流量、頻譜中心、頻譜熵、頻譜擴展度、色度特征以及色度特征標準差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910555688.2/1.html,轉載請聲明來源鉆瓜專利網。





