[發明專利]一種基于增強式殘差神經網絡的多模態語音情感識別方法在審
| 申請號: | 201811346114.6 | 申請日: | 2018-11-13 |
| 公開(公告)號: | CN109460737A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 陳盈科;毛華;吳雨 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 多模態 增強式 殘差 情感識別 語音情感 語音 視頻 卷積神經網絡 語音數據轉換 語音信號分析 多分類模型 多模態數據 模型初始化 視頻流圖像 模型使用 情感標簽 情感類別 情感特征 人機交互 時序數據 數據特征 特征表達 網絡結構 序列視頻 序列數據 選擇概率 原始數據 預測 準確率 卷積 模態 維度 分類 融合 概率 | ||
本發明公開了一種基于增強式深度殘差神經網絡的多模態語音情感識別方法,涉及視頻流圖像處理和語音信號分析等技術領域,解決人機交互的情感識別問題。本發明主要有提取視頻(序列數據)與語音的特征表達,包括將語音數據轉換為相應的語譜圖表達,以及對時序數據進行編碼;使用卷積神經網絡提取原始數據的情感特征表達用于分類,模型接受多輸入并且輸入維度不等,提出交叉卷積層對不同模態的數據特征進行融合,模型使用的整體網絡結構是增強式深度殘差神經網絡;模型初始化后,使用語音語譜圖、序列視頻信息及相應的情感標簽訓練多分類模型,訓練完畢后對未標記的語音和視頻進行預測,得到情感預測的概率值,選擇概率最大值作為該多模態數據的情感類別。本發明在多模態情感識別問題上提高了識別準確率。
技術領域
一種基于增強式深度殘差神經網絡的多模態語音情感識別方法,涉及視頻流圖像處理和語音信號分析等技術領域,解決人機交互的情感識別問題。
背景技術
隨著計算機技術的快速發展,人類對計算機的依賴性和要求不斷增強,如何更好地實現計算機的擬人化成為了一個研究熱點,擁有“情感”已經成為了計算機下一代的研究目標。情感可以通過多種溝通方式傳遞,例如文本,語音,視頻等。通過單一的信息,往往不能夠很好地理解情感,因此多模態數據的情感識別是目前模式識別的主要眼界方向。
傳統的多模態研究方法主要依賴面部表情信息,通過面部特征提取對情感進行分類,或者根據語音信息提取特征,首先采集特定人面部表情樣本建立面部表情數據庫,或者采集特定人語音樣本建立語音數據庫。傳統的研究點通常是征對所有形式大數據統一的研究方法,例如有特征提取,特征選擇,特征歸一化等。該項目研究征對語音大數據的特點,研究基于傅里葉變換的頻域特征選擇,研究頻域特征,例如MFCC,語譜圖等的特征級別數據融合技術。但是由于語音與圖像信息往往是高維度的數據,傳統的計算方法不能很好地進行特征學習。
針對大數據多維度,特征稀疏等特點,研究數據融合方法,利用深度學習的強大學習能力,在不丟失數據特征下,結合其他模態,例如視頻圖像,文本等,從深度學習“深”的特點出發,通過借鑒深度模型的強大能力,通過增加深度的非線性連接設計多深度,多廣度的數據融合模型,提高情感的辨識度。
發明內容
本發明提供了一種基于增強式深度殘差神經網絡的多模態語音情感識別方法,解決人機交互問題中情感識別問題,實現大數據高維度數據的有效融合,提高情感識別任務的效果。
為了實現上述目的,本發明所采用的技術方案是:
基于增強式深度殘差神經網絡的多模態語音情感識別方法,其特征在于利用殘差網絡交叉融合多模態的輸入信息,包括如下步驟:
(1)將多模態輸入數據進行預處理,包括轉換語音數據為相應的語譜圖,處理視頻流數據組織成時序表達;
(2)設計網絡模型,使用增強式深度殘差神經網絡,對維度不等的多模態輸入信息進行特征提取與特征融合;
(3)訓練與測試模型,使用匹配的多模態輸入數據及對應的情感類別標簽,訓練深度神經網絡模型;訓練好的的模型對未標記的多模態輸入數據進行預測,得到各類情感預測的概率值,選擇較高概率值的類別作為情感識別的結果。
進一步,所述步驟(1)中包括如下步驟:
(11)語音預處理:語音的特征表達是預處理的關鍵步驟,本發明采用語譜圖作為語音特征的一種表示,相比于其他特征提取算法,語譜圖包含了更多的語音原始信息包括時間、頻率、振幅等信息,降低了語音維度的同時保留了大部分語音的原始信息;
(12)視頻流預處理:視頻流數據主要包含對人體的面部表情與肢體動作在視頻的變化的移動信息記錄,將每個時刻視頻內的位置信息(面部,頭部,手)構成一個一維表達,將多個時刻的一維表達合并,并通過滑動窗口的處理,得到統一的時序數據表達。
進一步,所述步驟(2)中包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811346114.6/2.html,轉載請聲明來源鉆瓜專利網。





