[發(fā)明專利]一種基于時域卷積網(wǎng)絡的多模態(tài)情感識別方法有效
| 申請?zhí)枺?/td> | 202110072249.3 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112784730B | 公開(公告)日: | 2022-03-29 |
| 發(fā)明(設計)人: | 李克;梁瑞宇;趙力;郭如雪 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G10L25/63 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 211189 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時域 卷積 網(wǎng)絡 多模態(tài) 情感 識別 方法 | ||
本發(fā)明公開了一種基于時域卷積網(wǎng)絡的多模態(tài)情感識別方法,對音視頻樣本中的視頻模態(tài)數(shù)據(jù)間隔采樣并進行人臉檢測與關鍵點定位,得到灰度人臉圖像序列;進行短時傅里葉變換并通過梅爾濾波器組,得到梅爾聲譜圖;將灰度人臉圖像序列和梅爾聲譜圖分別通過人臉圖像卷積網(wǎng)絡和聲譜圖像卷積網(wǎng)絡,并進行特征融合;將融合特征序列輸入時域卷積網(wǎng)絡得到高級特征向量;將高級特征向量通過全連接層以及Softmax回歸,得到每一情感類別的預測概率,與實際概率分布之間計算交叉熵損失,并通過反向傳播訓練整個網(wǎng)絡,得到訓練好的神經(jīng)網(wǎng)絡模型。本發(fā)明能夠通過音視頻預測情感,同時訓練時長短,識別準確率高。
技術領域
本發(fā)明涉及音視頻處理、模式識別、深度學習技術,尤其涉及一種基于時域卷積網(wǎng)絡的多模態(tài)情感識別方法。
背景技術
1997年,Picard教授首先提出了“情感計算”的概念,情感計算涉及心理學、認知學、模式識別、語音信號處理、生理學、社會學、計算機視覺和人工智能等方面,它利用計算機獲取人類的臉部表情、語音等信息來識別人類表現(xiàn)出的情感狀態(tài),從而使機器能夠更好地理解人類的情感和行為,以此帶來更流暢和高效的交互體驗。多模態(tài)情感識別,旨在利用表情和語音模態(tài)信息來識別人的基本情感,一般分為6類,依次為高興(Happy)、悲傷(Sad)、吃驚(Surprise)、憤怒(Angry)、恐懼(Fear)和厭惡(Disgust),多模態(tài)融合的方法一般有特征融合和決策融合。特征融合能夠最大程度得保留各個模態(tài)的信息,但也存在著多個模態(tài)信息同步問題和因特征維度太大而出現(xiàn)的過擬合問題。決策融合是在各個模態(tài)模型得出情感識別結果后,對最后的結果以某種規(guī)則進行最后判決,靈活性高,實時性強,但由于最后只能獲得各個模態(tài)上的判定結果,信息量較少,相對精度較低。
隨著近年來深度學習技術的不斷發(fā)展,越來越多的研究者將其應用于多模態(tài)情感識別,Chen等人在2016年EmotiW情感識別挑戰(zhàn)賽中,在語音模態(tài)上使用聲學統(tǒng)計特征等多種語音特征,在人臉表情模態(tài)上使用CNN特征等多種人臉表情特征,針對每種特征訓練支持向量機、隨機森林和邏輯回歸分類器,并采用決策融合的方法來實現(xiàn)最后的情感識別,取得了遠高于基線的成績。Noroozi等人提出了一種新型的基于語音和視頻的決策融合方法的多模態(tài)情感識別系統(tǒng),從語音中提取基于MFCC的特征,并從視頻中計算面部標記的幾何關系,在eNTERFACE’05數(shù)據(jù)庫上取得了較好的識別效果。Chao等人在2015年EmotiW情感識別挑戰(zhàn)賽中融合了使用長短時記憶神經(jīng)網(wǎng)絡聚合的語音和人臉表情特征,并對得到的特征采用SVM分類器來實現(xiàn)最后的分類,實現(xiàn)特征融合方法的情感識別方法,在測試集上取得了很高的識別率。
樣本的時序建模是多模態(tài)情感識別中的關鍵問題,在深度學習背景下一般使用與與遞歸神經(jīng)網(wǎng)絡(RNN)有關的架構如長短時記憶(LSTM)網(wǎng)絡、門控循環(huán)單元(GRU)等,但RNN等架構存在多個缺陷,如易出現(xiàn)梯度消失和梯度爆炸問題、內存占用問題、順序處理的耗時過長問題等,因此S.Bai等人認為在對序列數(shù)據(jù)進行建模時,應該將卷積網(wǎng)絡作為主要候選者之一加以考慮,他們在2018年提出了稱為時域卷積網(wǎng)絡(Temporal ConvolutionalNetwork,TCN)的架構,能夠有效解決以上問題,因此同樣可應用于多模態(tài)情感識別的時序建模。
發(fā)明內容
發(fā)明目的:為了克服現(xiàn)有技術中存在的不足,本發(fā)明提供一種準確率高的基于時域卷積網(wǎng)絡的多模態(tài)情感識別方法。
技術方案:為實現(xiàn)上述目的,本發(fā)明采用的技術方案為:
一種基于時域卷積網(wǎng)絡的多模態(tài)情感識別方法,包括以下步驟:
步驟1,獲取含有情感信息的音視頻作為訓練樣本。
步驟2,對步驟1獲得的訓練樣本中的視頻模態(tài)數(shù)據(jù)間隔采樣并進行人臉檢測與關鍵點定位,得到灰度人臉圖像序列。
步驟3,對樣本中的音頻模態(tài)數(shù)據(jù)進行短時傅里葉變換STFT并通過梅爾濾波器組,得到梅爾聲譜圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110072249.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置





