[發明專利]一種基于特征融合與集成學習的語音情感分類方法有效
| 申請號: | 202110209708.8 | 申請日: | 2021-02-25 |
| 公開(公告)號: | CN112861984B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 郭奕;熊雪軍;徐亮;黃永茂;卿朝進;黃文韜 | 申請(專利權)人: | 西華大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/20;G10L25/63 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 610039 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 融合 集成 學習 語音 情感 分類 方法 | ||
本發明公開了一種基于特征融合與集成學習的語音情感分類方法,包括以下步驟:采集若干語音數據,并對語音數據進行預處理;對預處理后的數據進行特征提取,并構建特征集;采用多分類器構建集成學習分類模型,并對集成學習分類模型進行訓練;采用訓練后的集成學習分類模型對待識別語音數據對應特征集進行識別,獲取分類結果,得到語音情感分類結果。本發明能夠有效地通過語音數據對說話人的語音情感進行預測和分類。
技術領域
本發明屬于深度學習領域,具體涉及一種基于特征融合與集成學習的語音情感分類方法。
背景技術
隨著計算機技術的快速發展,計算機已經成為人們生活不可缺少的一部分。目前的人機交互領域不再局限于鍵盤和屏幕,已經擴展到語音交互,例如百度的“小杜”、微軟的“小冰”、蘋果的“siri”等。然而現有的語音交互是比較“冰冷”的,是缺乏“情感”的,用戶體驗不好。從說話人的語音數據中挖掘出情感信息,是近年來語音信號領域研究的熱門方向,對提高人機交互水平有著重要的意義,具有非常重要的研究價值和應用價值。
目前對于語音情感分類研究的技術方案和技術缺陷如下:
(1)基于傳統的聲學特征和分類模型,通過構建傳統的聲學特征集,然后使用分類模型進行訓練和分類。這種方法的重心在于對聲學特征集的構建,然構建的聲學特征集比較龐雜,且主觀性較強,耗時大,此外分類模型比較單一,總體識別準確率較低。
(2)基于深度學習的語音情感分類方法,該方法首先對語音數據進行預處理,然后提取出聲譜圖,接下來使用圖像分類的方法來是實現情感數據的分類。這種方法的重心在于對模型的構建,然基于深度學習的分類算法繁多,分類表現也參差不齊,單一分類的方法無法區分典型樣本,且一般提取的聲譜圖是語譜圖或者Mel譜圖,比較單一,總體識別準確率較低。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于特征融合與集成學習的語音情感分類方法解決了現有技術中存在的問題。
為了達到上述發明目的,本發明采用的技術方案為:一種基于特征融合與集成學習的語音情感分類方法,包括以下步驟:
S1、采集若干語音數據,并對語音數據進行預處理;
S2、對預處理后的數據進行特征提取,并構建特征集;
S3、采用多分類器構建集成學習分類模型,并對集成學習分類模型進行訓練;
S4、采用訓練后的集成學習分類模型對待識別語音數據對應特征集進行識別,獲取分類結果,得到語音情感分類結果。
進一步地,所述步驟S1中對語音數據進行預處理具體包括預加重、消除趨勢項、端點處理、分幀處理以及加窗處理。
進一步地,所述步驟S2具體為:
S2.1、對預處理后的數據進行特征提取,得到若干特征;
S2.2、將若干特征組成若干維的特征向量;
S2.3、基于已訓練的LightGBM模型,獲取特征向量中每個特征的重要性,并按重要性將特征進行降序排序;
S2.3、獲取特征重要度平均值,并將重要性低于平均值的特征濾除;
S2.4、采用序列前向算法選擇最優特征子集,完成特征集的構建。
進一步地,所述步驟S2.1中特征包括特征1至特征809;
所述特征1-8具體為:短時能量及其一階差分的均值、方差、最大值以及最小值;
特征9-14具體為:聲音強度及其一階差分的均值、方差以及最大值;
特征15具體為:平均語速;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華大學,未經西華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110209708.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動式恒壓密封性檢測系統
- 下一篇:一種具備三合一復合彈簧結構的斷路器





