[發(fā)明專利]一種基于特征-時(shí)間注意力機(jī)制的多模態(tài)情感識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110135196.5 | 申請(qǐng)日: | 2021-02-01 |
| 公開(公告)號(hào): | CN112784798B | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 李克;梁瑞宇;趙力;郭如雪 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06V40/16 | 分類號(hào): | G06V40/16;G06V10/80;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 時(shí)間 注意力 機(jī)制 多模態(tài) 情感 識(shí)別 方法 | ||
本發(fā)明公開了一種基于特征?時(shí)間注意力機(jī)制的多模態(tài)情感識(shí)別方法,包括以下步驟,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,獲取含有情感信息的音視頻樣本和視頻初級(jí)特征矩陣;獲取音頻初級(jí)特征矩陣;根據(jù)視頻初級(jí)特征矩陣和音頻初級(jí)特征矩陣得到融合特征矩陣,將融合特征矩陣輸入特征自注意力機(jī)制模塊;將經(jīng)過處理的融合特征矩陣輸入雙向門控循環(huán)單元網(wǎng)絡(luò),得到所有時(shí)刻的輸出向量以及最后一個(gè)隱藏層的狀態(tài)向量;獲取注意力權(quán)重,根據(jù)注意力權(quán)重得到高級(jí)特征向量;得到訓(xùn)練后可以對(duì)音視頻樣本進(jìn)行情感分類的神經(jīng)網(wǎng)絡(luò)模型;采集待檢測(cè)的音視頻并將其輸入訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型,得到情感分類結(jié)果。通過本發(fā)明可以實(shí)現(xiàn)提升對(duì)于對(duì)音視頻中人臉情感識(shí)別的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及模式識(shí)別的技術(shù)領(lǐng)域,尤其涉及一種基于特征-時(shí)間注意力機(jī)制的多模態(tài)情感識(shí)別方法。
背景技術(shù)
情感作為人類生活體驗(yàn)的一個(gè)重要基礎(chǔ),影響著人類的認(rèn)知、感知和日常生活。1971年,心理學(xué)家Ekman和Friesen通過跨文化研究將人的情感分為6 種基本的情感類別,依次為高興(Happy)、悲傷(Sad)、吃驚(Surprise)、憤怒(Angry)、恐懼(Fear)和厭惡(Disgust),這6類情感類別具有通用性,并且可以在此基礎(chǔ)上合成更多細(xì)粒度的次級(jí)情感類別。1997年,Picard教授首先提出了“情感計(jì)算”的概念,情感計(jì)算涉及心理學(xué)、認(rèn)知學(xué)、模式識(shí)別、語音信號(hào)處理、生理學(xué)、社會(huì)學(xué)、計(jì)算機(jī)視覺和人工智能等方面,它利用計(jì)算機(jī)獲取人類的臉部表情、語音等信息來識(shí)別人類表現(xiàn)出的情感狀態(tài),從而使機(jī)器能夠更好地理解人類的情感和行為,以此帶來更流暢和高效的交互體驗(yàn)。
“多模態(tài)”的概念最早由Duc等人提出,旨在利用表情和語音模態(tài)信息來識(shí)別人的身份和行為。多模態(tài)融合的方法一般有特征融合和決策融合。特征融合能夠最大程度得保留各個(gè)模態(tài)的信息,但也存在著多個(gè)模態(tài)信息同步問題和因特征維度太大而出現(xiàn)的過擬合問題。決策融合是在各個(gè)模態(tài)模型得出情感識(shí)別結(jié)果后,對(duì)最后的結(jié)果以某種規(guī)則進(jìn)行最后判決,靈活性高,實(shí)時(shí)性強(qiáng),但由于最后只能獲得各個(gè)模態(tài)上的判定結(jié)果,信息量較少,相對(duì)精度較低。
隨著近年來深度學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的研究者將其應(yīng)用于多模態(tài)情感識(shí)別,Chen等人在2016年EmotiW情感識(shí)別挑戰(zhàn)賽中,在語音模態(tài)上使用聲學(xué)統(tǒng)計(jì)特征等多種語音特征,在人臉表情模態(tài)上使用CNN特征等多種人臉表情特征,針對(duì)每種特征訓(xùn)練支持向量機(jī)、隨機(jī)森林和邏輯回歸分類器,并采用決策融合的方法來實(shí)現(xiàn)最后的情感識(shí)別,取得了遠(yuǎn)高于基線的成績。Noroozi 等人提出了一種新型的基于語音和視頻的決策融合方法的多模態(tài)情感識(shí)別系統(tǒng),從語音中提取基于MFCC的特征,并從視頻中計(jì)算面部標(biāo)記的幾何關(guān)系,在 eNTERFACE’05數(shù)據(jù)庫上取得了較好的識(shí)別效果。Chao等人在2015年EmotiW 情感識(shí)別挑戰(zhàn)賽中融合了使用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)聚合的語音和人臉表情特征,并對(duì)得到的特征采用SVM分類器來實(shí)現(xiàn)最后的分類,實(shí)現(xiàn)特征融合方法的情感識(shí)別方法,在測(cè)試集上取得了很高的識(shí)別率。
由于用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)較少,且多模態(tài)融合特征維度較高,深度網(wǎng)絡(luò)極易出現(xiàn)過擬合且十分依賴人的先驗(yàn)知識(shí),為此需要引入一種使網(wǎng)絡(luò)自動(dòng)關(guān)注局部有效信息地機(jī)制,即注意力機(jī)制。注意力機(jī)制在自然語言處理領(lǐng)域被提出并廣泛應(yīng)用,近年來也被遷移到模式識(shí)別任務(wù)中使用,表現(xiàn)出良好的提升效果。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于特征- 時(shí)間注意力機(jī)制的多模態(tài)情感識(shí)別方法,該發(fā)明能夠提升對(duì)于音視頻中人物情感識(shí)別的準(zhǔn)確率。
技術(shù)方案:為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種基于特征-時(shí)間注意力機(jī)制的多模態(tài)情感識(shí)別方法,包括以下步驟,
步驟1:構(gòu)建情感識(shí)別網(wǎng)絡(luò)模型,獲取含有情感信息的音視頻樣本,對(duì)樣本中的視頻模態(tài)數(shù)據(jù)提取人臉灰度圖像并使用深度殘差網(wǎng)絡(luò)編碼為固定維度的特征向量得到視頻初級(jí)特征矩陣;
步驟2:對(duì)樣本中的音頻模態(tài)數(shù)據(jù)提取梅爾頻率倒譜系數(shù),得到音頻初級(jí)特征矩陣;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110135196.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 時(shí)間同步裝置、時(shí)間同步系統(tǒng)和時(shí)間同步方法
- 時(shí)間校準(zhǔn)裝置和時(shí)間校準(zhǔn)方法
- 時(shí)間同步系統(tǒng)及時(shí)間同步方法
- 時(shí)間同步方法、時(shí)間同步系統(tǒng)、時(shí)間主設(shè)備以及時(shí)間從設(shè)備
- 時(shí)間控制裝置和時(shí)間控制方法
- 時(shí)間測(cè)試電路及時(shí)間測(cè)試方法
- 時(shí)間的飛行時(shí)間
- 局部激活時(shí)間的時(shí)間變換
- 時(shí)間測(cè)量電路、時(shí)間測(cè)量芯片及時(shí)間測(cè)量裝置
- 時(shí)間同步方法與時(shí)間同步系統(tǒng)
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





