[發明專利]情感識別模型的訓練方法、情感識別方法、裝置、設備及存儲介質有效
| 申請號: | 201910145605.2 | 申請日: | 2019-02-27 |
| 公開(公告)號: | CN109817246B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉博卿;賈雪麗;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30;G10L15/06;G10L25/45;G10L25/24 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情感 識別 模型 訓練 方法 裝置 設備 存儲 介質 | ||
1.一種情感識別模型的訓練方法,其特征在于,包括:
獲取用戶的語音信息以及所述語音信息對應的數據標簽;
根據所述語音信息以及對應的數據標簽構建樣本數據;
基于預設系數對所述樣本數據中的語音信息進行預加重處理,所述預設系數基于情感識別模型內注意力機制對應的訓練參數確定;
根據預設處理規則對預加重處理后的語音信息進行預處理以得到對應的頻譜向量;
提取預設的循環神經網絡,所述循環神經網絡包括所述注意力機制,所述注意力機制用于加強所述語音信息中的部分區域;
基于所述循環神經網絡,根據所述語音信息對應的頻譜向量和數據標簽進行模型訓練以得到情感識別模型。
2.根據權利要求1所述的訓練方法,其特征在于,所述根據預設處理規則對預加重處理后的語音信息進行預處理以得到對應的頻譜向量,包括:
對所述預加重處理后的語音信息進行分幀加窗處理以得到處理后的語音信息;
對處理后的語音信息進行頻域變換以得到對應的幅度譜;
通過梅爾濾波器組對所述幅度譜進行濾波處理,并對濾波處理后的幅度譜進行離散余弦變換以得到梅爾頻率倒譜系數;
對所述梅爾頻率倒譜系數進行歸一化處理以得到所述語音信息對應的頻譜向量。
3.根據權利要求2所述的訓練方法,其特征在于,所述通過梅爾濾波器組對所述幅度譜進行濾波處理,包括:
獲取所述語音信息對應的最大頻率,利用梅爾頻率計算公式計算所述最大頻率對應的梅爾頻率;
根據計算的梅爾頻率以及所述梅爾濾波器組中三角濾波器的數量計算兩個相鄰三角濾波器的中心頻率的梅爾間距;
根據所述梅爾間距完成對多個三角濾波器的線性分布;
根據完成線性分布的多個三角濾波器對所述幅度譜進行濾波處理。
4.根據權利要求3所述的訓練方法,其特征在于,所述梅爾頻率計算公式為:
其中,fmel為所述梅爾頻率,f為所述語音信息對應的最大頻率,A為系數;
所述對所述梅爾頻率倒譜系數進行歸一化處理以得到所述語音信息對應的頻譜向量,包括:
采用零均值歸一化對所述梅爾頻率倒譜系數進行歸一化處理以得到所述語音信息對應的頻譜向量,所述零均值歸一化對應的轉化公式為:
其中,為梅爾頻率倒譜系數的均值;σ為梅爾頻率倒譜系數的標準差;x為每個梅爾頻率倒譜系數;x*為歸一化后的梅爾頻率倒譜系數。
5.根據權利要求1所述的訓練方法,其特征在于,所述循環神經網絡的結構包括輸入層、循環層、注意力機制、全連層和輸出層;所述注意力機制用于根據注意力方程建立所述循環層的輸出量與權重向量之間的映射關系以實現加強所述語音信息中的部分區域;
所述注意力方程為:
其中,f(hi)=tanh(Whi+b);g為所述全連層的輸入向量;hi為每一個時間點i對應的循環層的輸出量;ai是每一個時間點i對應的權重向量,用來代表每一個時間點i對全連層和輸出層的影響大小;T為時間點i的總個數;W為一個維度S*D的矩陣參數,S為正整數,b和u為一個維度為S的向量參數,D為所述循環層中網絡單元的個數。
6.一種情感識別方法,其特征在于,包括:
采集用戶的語音信號;
根據預設處理規則對所述語音信號進行預處理以得到所述語音信號對應的頻譜向量;
將所述頻譜向量輸入至情感識別模型對所述用戶的情感進行識別,以得到所述用戶的情感類別,所述情感識別模型為采用權利要求1至5中任一項所述的情感識別模型訓練方法訓練得到的模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910145605.2/1.html,轉載請聲明來源鉆瓜專利網。





