[發(fā)明專利]基于多任務學習與層疊跨模態(tài)融合的多模態(tài)情感分析方法在審
| 申請?zhí)枺?/td> | 202210364764.3 | 申請日: | 2022-04-08 |
| 公開(公告)號: | CN114694076A | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設計)人: | 陳巧紅;孫佳錦;漏楊波 | 申請(專利權)人: | 浙江理工大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V40/16;G06V10/764;G06K9/62;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 王之懷;王洪新 |
| 地址: | 310018 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 層疊 跨模態(tài) 融合 多模態(tài) 情感 分析 方法 | ||
本發(fā)明屬于自然語言處理領域。技術方案是:一種基于多任務學習與層疊跨模態(tài)融合的多模態(tài)情感分析方法,其具體執(zhí)行步驟如下:步驟1:將原始視頻拆剪為視頻片段,提取可被模型識別的文本、音頻與視覺特征;步驟2:將步驟1)提取的文本、音頻和視覺特征首先輸入至單模態(tài)特征提取模塊,得到具有上下文語義信息的單模態(tài)隱藏層特征,再將這些單模態(tài)隱藏層特征輸入至層疊跨模態(tài)特征融合模塊,進行特征融合與提取,得到多模態(tài)高層特征;步驟3:將步驟2所得的多模態(tài)高層特征與單模態(tài)高層特征進行拼接,通過多層感知機,輸出最終的情感分類結果。該方法能在保留模態(tài)異質性的前提下,連貫融合不同模態(tài)的特征,有效識別復雜場景下的多模態(tài)情感。
技術領域
本發(fā)明屬于自然語言處理領域,具體涉及一種基于多任務學習與層疊跨模態(tài)融合的多模態(tài)情感分析方法,通過將不同模態(tài)的特征依次輸入多個層疊的門控跨模態(tài)trasnformer網絡進行融合,并利用多任務學習指導模型保存特征異質性,對于存在歧義、反諷等復雜情感表達的情況時具有較好的魯棒性。
背景技術
多模態(tài)情感分析是一項新興的深度學習技術,不僅應用于視頻的情感極性識別,也是用戶行為分析、對話生成等下游任務的基礎。作為文本情感分析的延伸,其數(shù)據(jù)源不僅有文本模態(tài),還包含了音頻與視覺模態(tài),同一數(shù)據(jù)段中的不同模態(tài)往往相互補充,為語義和情感消歧提供額外的線索。如何模擬人類接受多模態(tài)信息的過程,對模態(tài)內特征進行有效建模,使得模態(tài)的異質性能夠得到保留,并盡可能篩除噪聲;在模態(tài)間建模時,能夠有效地集成異構數(shù)據(jù),提取并整合有意義的信息,是目前多模態(tài)情感分析的兩大挑戰(zhàn)。
近年來多模態(tài)情感分析方法主要分為:(1)基于時序融合的方法,如循環(huán)嵌入網絡(REVEN),記憶融合網絡(MFN),循環(huán)記憶融合網絡(RMFN),MAG-BERT等;此類方法需要先將不同模態(tài)特征對齊,再按時序依次融合每一個時間步的特征,雖然可以檢測每個時間步的精細情感,但是割裂了不同模態(tài)不同時序特征之間的聯(lián)系。(2)非時序融合方法,如張量融合網絡(TFN)、跨模態(tài)Transformer、低秩張量融合網絡(LMF)與Bi-ATT等。此類方法往往不需要對數(shù)據(jù)進行對齊,從整體上對不同模態(tài)的數(shù)據(jù)進行融合。
上述方法存在兩個明顯問題:(1)采用了三元對稱體系結構,輪流對三個模態(tài)中的一對模態(tài)進行建模,并平等的對待每個模態(tài)對最終情感的貢獻。但事實上,在情感交流的過程中,文本、音頻與視覺信息所攜帶的信息量是不同的,文本才是多模態(tài)情感的主要載體,而音頻和視覺信息起到的是輔助功能。(2)缺乏對模態(tài)內特征的有效建模,在篩除噪聲的同時,難以保留單模態(tài)特征的異質性。
因此,必須尋找一種既能保留單模態(tài)特征的異質性,又采用非對稱體系結構來融合不同模態(tài)的方法,來保證多模態(tài)情感分析算法的性能。
發(fā)明內容
本發(fā)明的目的是克服上述背景技術的不足,提出一種基于多任務學習與層疊跨模態(tài)融合的多模態(tài)情感分析方法,該方法應能夠在保留模態(tài)異質性的前提下,連貫的融合不同模態(tài)的特征,從而有效識別復雜場景下的多模態(tài)情感。
本發(fā)明提供的技術方案是:
一種基于多任務學習與層疊跨模態(tài)融合的多模態(tài)情感分析方法,其具體執(zhí)行步驟如下:
步驟1:將原始視頻拆剪為視頻片段,標記該視頻片段所對應的情感標簽(積極,中性,消極),并從視頻中提取可被模型識別的文本、音頻與視覺特征;
步驟2:采用單模態(tài)特征提取模塊與層疊跨模態(tài)特征融合模塊
將步驟1)提取的文本、音頻和視覺特征首先輸入至單模態(tài)特征提取模塊,該模塊內包含三個長短期記憶網絡(LSTM),以進行模態(tài)內交互,得到具有上下文語義信息的單模態(tài)隱藏層特征,再將這些特單模態(tài)隱藏層特征輸入至層疊跨模態(tài)特征融合模塊,進行特征融合與提取,得到多模態(tài)高層特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江理工大學,未經浙江理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210364764.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種壓機尋中測試方法
- 下一篇:一種帶穿刺熱凝功能的射頻系統(tǒng)





