[發(fā)明專利]多模態(tài)連續(xù)情感識別方法、服務推理方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110361649.6 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113033450B | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設計)人: | 路飛;張龍 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06N5/04;G06N7/00;G10L25/24;G10L25/30;G10L25/63 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 閆偉姣 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態(tài) 連續(xù) 情感 識別 方法 服務 推理 系統(tǒng) | ||
1.一種基于表情和語音的多模態(tài)連續(xù)情感識別方法,其特征在于,包括以下步驟:
獲取包含用戶面部表情和語音的視頻數據;
對于視頻圖像序列,提取人臉圖像,對人臉圖像進行特征提取,得到表情情感特征;采用Gabor小波變換對人臉圖像進行特征提取,得到表情情感特征;
提取人臉圖像包括:
采用預訓練的神經網絡模型對視頻圖像序列進行人臉識別,同時識別異常視頻幀,將異常幀丟棄,其中,所述神經網絡模型級聯(lián)三個不同深度的卷積神經網絡;
根據表情情感特征,基于預訓練的深度學習模型進行連續(xù)情感識別;
對于語音數據,利用梅爾頻率倒譜系數獲取語音情感特征;語音數據在時域上是動態(tài)的,增加兩幀間信息的維度,通過對數據的靜態(tài)特征進行動態(tài)一階差分和二階差分來獲得語音的動態(tài)特征,通過組合一階差分動態(tài)特征、二階動態(tài)特征和靜態(tài)特征得到梅爾頻率倒譜系數情感特征;根據語音情感特征,基于預訓練的遷移學習網絡進行連續(xù)情感識別;遷移學習神經網絡由7個卷積層、一個池化層、一個Dropout層以及1個全連接層組成,激活函數選擇Relu和Tanh函數;Relu用于卷積層,Tanh函數應用于全連接層;
將表情情感識別結果和語音情感識別結果相融合,得到最終識別結果;
對表情和語音情感識別結果利用多元線性回歸進行融合,實現(xiàn)多模態(tài)融合的情感識別;多元線性回歸的方程如下所示:
Y=β0+β1x1+β2x2+β3x3+…+βkxk+ε
式中β0為回歸常數;β1,β2,β3,…,βk代表回歸系數;Y表示因變量;x1,x2,x3,…,xk代表自變量;ε表示隨機誤差。
2.如權利要求1所述的一種基于表情和語音的多模態(tài)連續(xù)情感識別方法,其特征在于,對于語音數據還進行預處理:
利用一階非遞歸型的高通濾波器對語音數據進行處理;
對語音數據進行分幀處理,并通過添加漢明窗實現(xiàn)相鄰兩幀之間的平滑過渡。
3.如權利要求1所述的一種基于表情和語音的多模態(tài)連續(xù)情感識別方法,其特征在于,所述遷移學習網絡從輸入端到輸出端依次包括:第一卷積層、池化層、第二卷積層、第三卷積層、第四卷積層、dropout層和全連接層,其中,全連接層采用Tanh激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361649.6/1.html,轉載請聲明來源鉆瓜專利網。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數據處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數據的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法





