[發明專利]基于注意力機制的語音情感識別方法有效
| 申請號: | 201811135064.7 | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN109285562B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 謝躍;梁瑞宇;梁鎮麟;郭如雪 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/27;G10L15/06;G06N3/04 |
| 代理公司: | 南京創略知識產權代理事務所(普通合伙) 32358 | 代理人: | 嚴靖 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 語音 情感 識別 方法 | ||
1.基于注意力機制的語音情感識別方法,其特征在于:包括以下步驟,
步驟(A),從原始語音數據中提取具有時序信息的語音特征;
步驟(B),建立具有處理變長數據能力的LSTM模型;
步驟(C),通過注意力機制優化LSTM模型中的遺忘門計算方式;
步驟(D),對優化后的LSTM模型輸出的同時,進行時間維度和特征維度的注意力加權操作;
步驟(E),在LSTM模型上添加全連層與軟最大化層,構建形成完整的情感識別網絡模型;
步驟(F),訓練情感識別網絡模型,并對該情感識別網絡模型的識別性能進行評測,
其中,步驟(A),提取具有時序信息的語音特征是通過語音幀之間的序列關系保留了原始語音數據中的時序信息,且該具有時序信息的語音特征的維度是隨原始語音數據的實際長度而變化的;
步驟(B),建立具有處理變長數據能力的LSTM模型,遵循以下規則,
(B1),根據LSTM模型具有處理變長語音特征的能力,在不等長的語音數據結尾處補零至相同長度;
(B2),在LSTM模型訓練前,補零后的語音數據實際有效長度通過每幀數據的絕對值求和并判斷是否為零來獲得;
(B3),在LSTM模型參數更新訓練時,只有實際有效的語音數據參與運算,補零的數據并不參與運算;
步驟(C),通過注意力機制優化LSTM模型中的遺忘門計算方式,是在遺忘門與細胞狀態的更新計算過程中增加窺視連接,將細胞狀態也作為輸入,該遺忘門計算方式,如公式(1)所示,
ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
該細胞狀態更新,如公式(2)、(3)、(4)所示,
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,ft為遺忘門參數,Ct為細胞狀態更新參數,Ct-1和ht-1分別為上一時刻的細胞狀態和隱層輸出,xt為當前時刻的輸入,為細胞狀態更新的候選值,it為控制候選值的系數,Wf為LSTM模型內待訓練的遺忘門外權重參數,bf為LSTM模型內待訓練的遺忘門偏置參數,Wi為LSTM模型內待訓練的控制候選值權重參數,bi為LSTM模型內待訓練的控制候選值偏置參數,WC為LSTM模型內待訓練的細胞狀態更新權重參數,bC為LSTM模型內待訓練的細胞狀態更新偏置參數,σ為sigmod激活函數;
在該LSTM模型中it由(1-ft)獲得,即舊細胞遺忘的信息與新細胞加入的信息一同由ft決定,細胞狀態更新公式,如公式(5)所示:
從上式中可以看出,遺忘門參數ft是通過對新舊細胞狀態加權求和來更新當前時刻細胞狀態的,針對加權系數采用自注意力機制來獲取,即通過訓練自注意力模型中的參數來獲取細胞自身狀態中的信息,以更新新的細胞狀態,因此,遺忘門參數ft,可通公式(6)得到,
ft=σ(Vf×tanh(Wf×Ct-1)) (6)
其中,Vf為遺忘門內注意力機制待訓練參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811135064.7/1.html,轉載請聲明來源鉆瓜專利網。





