[發(fā)明專利]基于注意力機(jī)制與GMN的多模態(tài)情感識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110239787.7 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN113095357A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 曹葉文;陳煒青;周冠群 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06K9/00;G06F40/30;G10L25/63 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 266237 *** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機(jī)制 gmn 多模態(tài) 情感 識別 方法 系統(tǒng) | ||
本發(fā)明公開了基于注意力機(jī)制與GMN的多模態(tài)情感識別方法及系統(tǒng),對獲取的待識別的視頻進(jìn)行預(yù)處理,得到文本、語音和面部表情特征;將文本、語音和面部表情特征,并發(fā)輸入到訓(xùn)練后的多模態(tài)情感識別網(wǎng)絡(luò)的LSTMs模型中,輸出第一特征向量;對LSTMs模型所有相鄰時間戳的存儲器輸出值,進(jìn)行加權(quán)求和,得到第一加權(quán)后的特征;將第一加權(quán)后的特征,輸入到訓(xùn)練后的門控記憶網(wǎng)絡(luò)GMN中,輸出第二特征向量;訓(xùn)練后的全局注意力機(jī)制網(wǎng)絡(luò)GTAN,對每個LSTM模型下,所有時間戳的存儲器輸出值進(jìn)行加權(quán)求和,得到第三特征向量;對第一、第二和第三特征向量進(jìn)行融合,得到融合特征向量;對融合特征向量進(jìn)行情感識別,得到情感識別結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及情感識別技術(shù)領(lǐng)域,特別是涉及基于注意力機(jī)制與GMN的多模態(tài)情感識別方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提到了與本發(fā)明相關(guān)的背景技術(shù),并不必然構(gòu)成現(xiàn)有技術(shù)。
隨著人工智能的發(fā)展,為了更好的服務(wù)于人,希望機(jī)器能夠更好的識別人的真實(shí)表達(dá),從而提供符合人的期望的服務(wù),人機(jī)交互的呼聲越來越高。然而,大部分所謂的智能終端只能做簡單的執(zhí)行任務(wù),無法做到真正的人機(jī)交互。而實(shí)現(xiàn)真正的人機(jī)交互首要的關(guān)鍵點(diǎn)就在于讓智能終端正確識別人們所表現(xiàn)出的情感,這就是所謂的情感識別。在人類發(fā)展與交流的過程中,情感表達(dá)是一種重要的部分。本發(fā)明可以通過對人們的語音語調(diào)變化、表達(dá)用詞、面部表情以及肢體動作來進(jìn)行人與人之間的情感識別。在人工智能領(lǐng)域中,情感識別是涉及到人機(jī)交互的重要技術(shù),它融合了語音信號處理、心理學(xué)、模式識別、視頻圖像處理等多種學(xué)科,可以應(yīng)用于教育、交通、醫(yī)療等各個領(lǐng)域。
情感識別在本質(zhì)上屬于計算機(jī)技術(shù)中的模式識別,本發(fā)明需要對人類表達(dá)情感的信息進(jìn)行數(shù)據(jù)采集以及后續(xù)數(shù)據(jù)處理。生活中最普遍的數(shù)據(jù)來源就是音頻與視頻,而且心理學(xué)研究表明,視頻中的面部表情與音頻中的語音和文本在人類情緒的表達(dá)中起到至關(guān)重要的作用。基于音頻的情感識別方法一般是語音情感識別,基于視頻的情感識別方法一般是人臉表情識別。在情感識別技術(shù)發(fā)展的進(jìn)程中,雖然基于音頻的語音情感識別與基于視頻的人臉表情識別這兩種單模態(tài)情感識別都取得了巨大的進(jìn)展,但是從情感信息本身來說,人類的情感是由多模態(tài)信息組合而成的,各個模態(tài)之間的信息具有互補(bǔ)性,音視頻融合的情感識別更能充分地利用多模態(tài)信息。因此,多模態(tài)情感識別成為了研究重點(diǎn)。
多模態(tài)情感識別最初是使用支持向量機(jī)(SVM),線性回歸和邏輯回歸等分類器進(jìn)行探索。早期的多模態(tài)情感識別方法對于視頻信號,使用光流法來檢測臉部關(guān)鍵點(diǎn)(如嘴角,眉毛內(nèi)角等)的移動與移速,并使用KNN算法判斷視頻模態(tài)的情感類別。另外對于語音信號,則使用語音的音高特征與HMM算法判斷語音模態(tài)的情感類別。最后加權(quán)結(jié)合視頻模態(tài)情感類別與音頻模態(tài)情感類別得到最后的識別結(jié)果。還有一些方法是結(jié)合了視頻,音頻和文本形式,使用支持向量機(jī)SVM中的多核學(xué)習(xí)(MKL)融合了三種模式,從而獲得更高的識別精度。近幾年產(chǎn)生的方法包括將梅爾頻譜圖用作音頻信號到CNN的輸入,臉部框架用作視頻信號到3D CNN的輸入的情感識別方法,以及將語音信號的音頻特征,圖像幀的密集特征和圖像幀的基于CNN的特征在得分級別進(jìn)行融合以識別情緒的情感識別方法等。
雖然多模態(tài)情感識別可以很好地克服單模態(tài)情感識別中信息單一,無法互補(bǔ)的缺點(diǎn),但是如何將不同模態(tài)的信息進(jìn)行處理、融合是一個難以解決的問題。傳統(tǒng)的多模態(tài)信息融合方法框架有數(shù)據(jù)層融合、特征層融合以及決策層融合。這三種多模態(tài)情感識別框架,他們各有千秋。但是在實(shí)際任務(wù)中,需要考慮實(shí)際問題才能選擇最佳的融合方式。本文決定采用深度學(xué)習(xí)特征層融合的方式對文本信息、音頻信號與視頻信號進(jìn)行處理。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于注意力機(jī)制與GMN的多模態(tài)情感識別方法及系統(tǒng);
第一方面,本發(fā)明提供了基于注意力機(jī)制與GMN的多模態(tài)情感識別方法;
基于注意力機(jī)制與GMN的多模態(tài)情感識別方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110239787.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測設(shè)備
- 一種考慮激勵機(jī)制電量電價彈性矩陣的耗電量估測方法
- 選擇區(qū)塊鏈共識機(jī)制的方法、裝置以及共識節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲設(shè)備糾錯方法及糾錯裝置
- 區(qū)塊鏈中共識機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





