[發(fā)明專利]語音情感識別方法和裝置、服務器、計算機可讀存儲介質在審
| 申請?zhí)枺?/td> | 201911300620.6 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111145786A | 公開(公告)日: | 2020-05-12 |
| 發(fā)明(設計)人: | 劉峰;涂臻;劉廣志;劉云峰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/03;G10L25/24;G10L25/30;G10L25/78;G10L15/26;G06N3/04;G06N3/08 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 方高明 |
| 地址: | 518051 廣東省深圳市南山區(qū)粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 情感 識別 方法 裝置 服務器 計算機 可讀 存儲 介質 | ||
本申請涉及一種語音情感識別方法和裝置、服務器、計算機可讀存儲介質,包括:從原始音頻幀序列中獲取有效音頻片段。對有效音頻片段提取音頻特征及文本特征,將有效音頻片段的音頻特征及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到原始音頻幀序列的情感分類。不僅從原始音頻幀序列中的有效音頻片段中提取出文本特征,還提取出音頻特征。然后,將所提取出的文本特征和音頻特征同時一起輸入至預設語音情感識別模型中進行處理,最終得到原始音頻幀序列的情感分類。顯然,對原始音頻幀序列中的有效音頻片段同時從文本特征和音頻特征兩個維度進行識別出情感分類,大大提高了所得到的情感分類的準確性。
技術領域
本申請涉及計算機技術領域,特別是涉及一種語音情感識別方法和裝置、服務器、計算機可讀存儲介質。
背景技術
隨著語音識別技術的發(fā)展,識別準確率不斷提高,語音識別技術也被應用到越來越多的場景。通過語音不僅可以傳遞語義信息,還可以傳遞情感信息。因此,語音情感識別也是語音識別的一個重要組成部分,對語音的情感進行識別,有利于更全面地捕捉到語音的全部信息。但是,傳統的語音情感識別技術對情感的識別準確率較低,因此,亟待解決傳統的語速情感識別準確率較低的問題。
發(fā)明內容
本申請實施例提供一種語音情感識別方法、裝置、服務器、計算機可讀存儲介質,可以提高語音情感識別的準確性。
一種語音情感識別方法,包括:
從原始音頻幀序列中獲取有效音頻片段;
對所述有效音頻片段提取音頻特征及文本特征;
將所述有效音頻片段的音頻特征及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類。
在其中一個實施例中,所述從原始音頻幀序列中獲取有效音頻片段,包括:
對原始音頻幀序列進行語音端點檢測,將所述原始音頻幀序列分割為有效音頻片段和無效音頻片段;
從所述原始音頻幀序列分割后的有效音頻片段和無效音頻片段中,獲取有效音頻片段。
在其中一個實施例中,所述對所述有效音頻片段提取音頻特征及文本特征,包括:
將所述有效音頻片段按照預設規(guī)則劃分為多個音頻單元;
對所述有效音頻片段中的每個音頻單元提取音頻特征;
對所述有效音頻片段中的每個音頻單元進行文本標注,得到所述有效音頻片段中的每個音頻單元的文本序列;
對所述文本序列進行分詞處理,得到所述有效音頻片段中的每個音頻單元的文本特征。
在其中一個實施例中,所述音頻特征包括梅爾頻率倒譜系數;
所述對所述有效音頻片段中的每個音頻單元提取音頻特征,包括:
對所述有效音頻片段中的每個音頻單元經過快速傅里葉變換及梅爾濾波器組的處理,提取出梅爾頻率倒譜系數;
所述將所述有效音頻片段的音頻特征及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類,包括:
將所述有效音頻片段的梅爾頻率倒譜系數及文本特征,輸入至預設語音情感識別模型中進行語音情感識別,得到所述原始音頻幀序列的情感分類。
在其中一個實施例中,所述預設語音情感識別模型的生成過程包括:
從訓練集中的原始音頻幀序列中獲取有效音頻片段;
對所述有效音頻片段提取音頻特征及文本特征;
對所述有效音頻片段進行情感標注,得到所述有效音頻片段的情感標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911300620.6/2.html,轉載請聲明來源鉆瓜專利網。





