[發明專利]一種基于深度學習的語音情緒識別方案在審
| 申請號: | 202010089880.X | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111292724A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 封吉寧 | 申請(專利權)人: | 上海凱岸信息科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L15/26;G10L25/18;G10L25/30;G10L25/63 |
| 代理公司: | 上海海貝律師事務所 31301 | 代理人: | 范海燕 |
| 地址: | 201808 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 情緒 識別 方案 | ||
本發明公開了一種基于深度學習的語音情緒識別方案,包括如下步驟:步驟一,將訓練用語音音頻文件進行傅里葉變換轉換到頻域,然后再利用梅爾頻率刻度的濾波器組對對應頻域信號進行處理得到,就可以得到梅爾譜圖,步驟二,語音情緒分類模型進行建立:將步驟一中的梅爾譜圖經過CNN和LSTM的計算后,自動生成對于語音情緒分類重要的組合特征變量。本發明,第一點是使用深度學習方法替代傳統機器學習方法,省去了耗時耗力的手工進行特征工程的步驟,使得整個模型訓練過程更加清晰簡潔。
技術領域
本發明涉及機器學習算法技術領域,具體為一種基于深度學習的語音情緒識別方案。
背景技術
目前語音情緒識別采取的方法一般是先將音頻文件通過預處理之后進行特征提取,提取出對音頻分類有效果的特征變量,一般有基音相關特征、短時能量相關特征、共振峰相關特征、過零率、梅爾倒譜系數等,然后將抽取好的特征輸入到傳統的機器學習分類模型中,如支持向量機、高斯混合模型、基于bagging方法的樹集成模型、基于boosting方法的樹集成模型等,最后輸出一段音頻所屬的情緒分類,現有技術的缺點主要有個:上面所述的基于傳統方法的語音情緒識別主要工作大部分都集中在特征工程中,非常依賴專家經驗與手工處理,耗時耗力,而且具體哪些聲學特征變量對語音情緒分類是最重要的目前是沒有定論的,聲學特征在語音情緒分類中的重要性往往根據任務的不同而變化,因此無法用一套固定的聲學特征組合來對所有的語音情緒識別任務進行分類,基于傳統方法的語音情緒識別在模型準確率方面有限,不能達到在大規模工業生產中的落地應用。
發明內容
本發明的目的在于提供一種基于深度學習的語音情緒識別方案,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于深度學習的語音情緒識別方案,包括如下步驟:
步驟一,將訓練用語音音頻文件進行傅里葉變換轉換到頻域,然后再利用梅爾頻率刻度的濾波器組對對應頻域信號進行處理;
步驟二,語音情緒分類模型進行建立:將步驟一中的梅爾譜圖經過CNN和LSTM的計算后,自動生成對于語音情緒分類的組合特征變量。
優選的,所述訓練用語音音頻文件采用加拿大Ryerson多媒體實驗室錄制的語音情感數據集。
優選的,所述語音情緒分類模型進行建立的網絡架構為三層CNN疊加,然后后接兩層LSTM,最后加一層softmax,激活函數使用ReLU,損失函數使用對數損失函數,優化器使用Adam和防止過擬合中間添加的了dropout層。
與現有技術相比,本發明的有益效果是:
1、本發明,第一點是使用深度學習方法替代傳統機器學習方法,省去了耗時耗力的手工進行特征工程的步驟,使得整個模型訓練過程更加清晰簡潔;
2、本發明,將語音分類問題轉換為圖像分類問題,圖像問題目前是深度學習應用相對比較成熟的領域,有比較成熟的網絡架構和方法,因此將語音問題轉換為圖像問題有助于提高準確率,能夠在大規模工業生產中的落地應用。
附圖說明
圖1為本發明的流程圖;
圖2為本發明的網絡架構結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
請參閱圖1-2,本發明提供一種技術方案:一種基于深度學習的語音情緒識別方案,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海凱岸信息科技有限公司,未經上海凱岸信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010089880.X/2.html,轉載請聲明來源鉆瓜專利網。





