[發明專利]在頻譜上對語音進行情緒識別的方法、系統及存儲介質有效
| 申請號: | 201811183893.2 | 申請日: | 2018-10-11 |
| 公開(公告)號: | CN109243491B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 劉博卿;賈雪麗;王健宗;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/18;G10L25/30;G10L25/45;G10L21/0208;G10L15/06;G10L15/20 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 袁文婷;陳英俊 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頻譜 語音 進行 情緒 識別 方法 系統 存儲 介質 | ||
1.一種在頻譜上對語音進行情緒識別的方法,應用于電子裝置,其特征在于,包括:
對語音進行預處理;
對預處理后的語音進行頻譜計算,獲取頻譜值,其中,采用重疊的海寧窗口對每一個子句進行操作,其中,窗移10毫秒,窗口大小20毫秒,
對于每一音頻幀,計算一個維度為800、網格分辨率為20Hz的離散傅里葉變換值,其中,所述離散傅里葉變換值即為頻譜值,
將通過計算獲得每一個子句的頻譜值聚合在一起,形成一個N×M的矩陣,其中,根據語音句子的長度,N=300,根據選定的頻率網格分辨率,M=200,其中,只考慮0-4kHz的語音,忽略別的頻率的語音;
對所述頻譜值進行歸一化處理;
采用深度網絡神經對經過歸一化處理的頻譜值進行情緒識別,獲取情緒識別結果;
在對所述頻譜值進行歸一化處理的過程中,
首先,將所述頻譜值轉為能量頻譜對數值;
然后,采用經驗值Enoise對所述能量頻譜對數值進行限制,即:所述能量頻譜對數值減去經驗值Enoise;
最后,采用歸一化使得所述能量頻譜對數值減去經驗值Enoise的方差為1。
2.根據權利要求1所述的在頻譜上對語音進行情緒識別的方法,其特征在于,在對語音進行預處理的過程中,
在語音數據庫中,每一個語音句子時長從1秒到20秒不等,每一個句子均有一個情緒的標簽;
將每一個長于3秒的語音句子分成等于小于3秒的子句,并且每一個子句的標簽于整句的標簽相同。
3.根據權利要求1所述的在頻譜上對語音進行情緒識別的方法,其特征在于,在將所述頻譜值轉為能量頻譜對數值的過程中,
首先,采用開源的音高檢測器,獲取語音每幀的基音頻率;
然后,對于每一個非靜音的幀,經過噪音濾波器,獲取改進版的能量頻譜對數值。
4.根據權利要求1所述的在頻譜上對語音進行情緒識別的方法,其特征在于,在采用深度網絡神經對經過歸一化處理的頻譜值進行情緒識別,獲取情緒識別結果過程中,
將經過歸一化處理的頻譜值輸入卷積神經網絡,并將所述卷積神經網絡的輸出作為長短期記憶網絡的輸入,從而對語音進行情緒識別,得到情緒識別的結果。
5.一種電子裝置,該電子裝置包括:存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至4任一項所述在頻譜上對語音進行情緒識別的方法的步驟。
6.一種在頻譜上對語音進行情緒識別的系統,其特征在于,包括:
語音預處理單元,用于對語音進行預處理;
頻譜值獲取單元,用于對預處理后的語音進行頻譜計算,獲取頻譜值;其中,所述頻譜值獲取單元包括:
海寧窗口處理模塊,用于采用重疊的海寧窗口對每一個子句進行操作,其中,窗移10毫秒,窗口大小20毫秒;
子句頻譜值獲取模塊,用于對于每一幀,計算一個維度為800、網格分辨率為20Hz的離散傅里葉變換值,其中,所述離散傅里葉變換值即為頻譜值;
整句頻譜值獲取單元,用于將通過計算獲得每一個子句的頻譜值聚合在一起,形成一個N×M的矩陣,其中,
根據語音句子的長度,N=300,根據選定的頻率網格分辨率,M=200,其中,只考慮0-4kHz的語音,忽略別的頻率的語音;
數據歸一化處理單元,用于對所述頻譜值進行歸一化處理;
情緒識別獲取單元,用于采用深度網絡神經對經過歸一化處理的頻譜值進行情緒識別,獲取情緒識別結果;
所述數據歸一化處理單元包括:
能量頻譜對數值轉化模塊,用于將頻譜值轉為能量頻譜對數值;
能量頻譜對數值限制模塊,用于采用經驗值Enoise對能量頻譜對數值進行限制,即:能量頻譜對數值減去經驗值Enoise;
方差獲取模塊,用于采用歸一化使得能量頻譜對數值減去經驗值Enoise的方差為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811183893.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音頻檢測方法、裝置及存儲介質
- 下一篇:一種語音情感識別系統及識別方法





