[發明專利]語音情感識別方法和裝置、服務器、計算機可讀存儲介質在審
| 申請號: | 201911300620.6 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111145786A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 劉峰;涂臻;劉廣志;劉云峰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/03;G10L25/24;G10L25/30;G10L25/78;G10L15/26;G06N3/04;G06N3/08 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 方高明 |
| 地址: | 518051 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 情感 識別 方法 裝置 服務器 計算機 可讀 存儲 介質 | ||
1.一種語音情感識別方法,其特征在于,包括:
從原始音頻幀序列中獲取有效音頻片段;
對所述有效音頻片段提取音頻特征及文本特征;
將所述有效音頻片段的音頻特征及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類。
2.根據權利要求1所述的方法,其特征在于,所述從原始音頻幀序列中獲取有效音頻片段,包括:
對原始音頻幀序列進行語音端點檢測,將所述原始音頻幀序列分割為有效音頻片段和無效音頻片段;
從所述原始音頻幀序列分割后的有效音頻片段和無效音頻片段中,獲取有效音頻片段。
3.根據權利要求1所述的方法,其特征在于,所述對所述有效音頻片段提取音頻特征及文本特征,包括:
將所述有效音頻片段按照預設規則劃分為多個音頻單元;
對所述有效音頻片段中的每個音頻單元提取音頻特征;
對所述有效音頻片段中的每個音頻單元進行文本標注,得到所述有效音頻片段中的每個音頻單元的文本序列;
對所述文本序列進行分詞處理,得到所述有效音頻片段中的每個音頻單元的文本特征。
4.根據權利要求3所述的方法,其特征在于,所述音頻特征包括梅爾頻率倒譜系數;
所述對所述有效音頻片段中的每個音頻單元提取音頻特征,包括:
對所述有效音頻片段中的每個音頻單元經過快速傅里葉變換及梅爾濾波器組的處理,提取出梅爾頻率倒譜系數;
所述將所述有效音頻片段的音頻特征及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類,包括:
將所述有效音頻片段的梅爾頻率倒譜系數及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類。
5.根據權利要求1所述的方法,其特征在于,所述預設語音情感識別模型的生成過程包括:
從訓練集中的原始音頻幀序列中獲取有效音頻片段;
對所述有效音頻片段提取音頻特征及文本特征;
對所述有效音頻片段進行情感標注,得到所述有效音頻片段的情感標簽;
將所述訓練集中每一組所述有效音頻片段的音頻特征及文本特征、所述有效音頻片段的情感標簽,輸入至卷積神經網絡中進行訓練,對所述卷積神經網絡的參數進行調整,得到預設語音情感識別模型。
6.根據權利要求5所述的方法,其特征在于,所述卷積神經網絡包括雙向長短期記憶網絡層、子采樣層、批量標準化BN層、最大池化層、全連接層及多分類器softmax層;
所述將所述訓練集中每一組所述有效音頻片段的音頻特征及文本特征、所述有效音頻片段的情感標簽,輸入至卷積神經網絡中進行訓練,對所述卷積神經網絡的參數進行調整,得到預設語音情感識別模型,包括:
將所述訓練集中每一組所述有效音頻片段的音頻特征及文本特征,輸入至所述雙向長短期記憶網絡層進行卷積計算;
將所述雙向長短期記憶網絡層的輸出,輸入至所述子采樣層進行子采樣;
將所述子采樣層的輸出輸入至所述BN層進行卷積計算;
將所述BN層的輸出輸入至所述最大池化層進行池化處理;
將所述最大池化層的輸出輸入至全連接層及softmax層進行處理,得到所述有效音頻片段的情感分類及對應的概率;
獲取最大的概率所對應的情感分類作為所述有效音頻片段的情感分類,將所述有效音頻片段的情感分類與所述有效音頻片段的情感標簽進行比較,根據比較結果對所述卷積神經網絡的參數進行調整,直到對所述訓練集中每一組所述有效音頻片段完成訓練,輸出預設語音情感識別模型。
7.根據權利要求6所述的方法,其特征在于,在所述將所述子采樣層的輸出輸入至所述BN層進行卷積計算之后,包括:
將所述BN層的輸出重復輸入至所述雙向長短期記憶網絡層進行卷積計算;
將所述雙向長短期記憶網絡層的輸出,輸入至所述子采樣層進行子采樣;
將所述子采樣層的輸出輸入至所述BN層進行卷積計算,所述重復次數小于設定閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911300620.6/1.html,轉載請聲明來源鉆瓜專利網。





