[發明專利]一種基于視覺、音頻與文本融合的跨模態BERT情感分析方法在審
| 申請號: | 202210825285.7 | 申請日: | 2022-07-14 |
| 公開(公告)號: | CN115510224A | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 劉峰;吳振國;趙崢淶 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/783;G06N3/04 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 杭行 |
| 地址: | 210023 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 音頻 文本 融合 跨模態 bert 情感 分析 方法 | ||
一種基于視覺、音頻與文本融合的跨模態BERT情感分析方法,將三種不同方式提取出的模態進行縮放并使用一個一維卷積網絡控制其處于相同維度;分別對視覺、音頻模態進行類Self?Attention處理并加權融合生成雙模態注意力矩陣;對文本進行相同處理后與雙模態注意力矩陣進行進一步融合并通過Mask掩碼模塊和激活函數生成融合后的多模態權重矩陣;將多模態權重矩陣與文本預訓練模型提取到的文本特征進行矩陣相乘處理后通過殘差網絡和歸一化得到的情感分類結果來微調文本預訓練模型。本方法結合來自文本、圖像和語音模態的信息微調預先訓練過的文本模型,采用Cross?Multimodal作為其核心,通過跨模態交互作用動態調整單詞的權重,能夠有效提高文本預訓練模型對于情感分類的準確性。
技術領域
本發明屬于自然語言處理領域,具體涉及一種基于視覺、音頻與文本融合的跨模態BERT情感分析方法。
背景技術
情感在人類的人際交往中起著至關重要的作用。情緒分析作為人機交互的關鍵技術之一,影響著人工智能的發展,已廣泛應用于許多應用場景,如人機對話、自動驅動等。文本是我們日常生活中的一種基本的方式,它通過詞語、短語和關系來表達情感。在過去的幾年里,文本情緒分析取得了很多成就,例如,TextCNN在針對句子級分類任務的預訓練詞向量之上進行訓練,取得的不錯的效果。
然而人們對世界的認知,對信息的處理是多模態的,大多的機器學習模型卻是僅針對單模態的,例如普通的BERT模型,在某些情況下,很難通過文本信息來準確地判斷情緒;而單一的圖片情感分析或是語音情感分析也僅僅針對單一模態做處理。
發明內容
針對現有技術的不足,本發明目的在于提供一種可以同時利用文本信息、視覺信息、音頻信息的多模態情感分析方法,提高了單一模態情感分析的準確率。
本發明為實現上述發明目的采用以下技術方案:
(1)從輸入視頻中提取出圖像特征、語音特征與文本特征,并控制三種不同模態的特征到同一維度上,具體步驟如下:
(1.1)先通過MTCNN來提取對齊人臉,使用OpenFace Toolkit2.0 提取出共709維的圖像特征;使用具有默認參數的Librosa提取共33 維的語音特征;使用預訓練好的標準BERT模型提取768維的文本特征;
(1.2)將所述三種模態輸入到一維卷積層控制其到相同的維度,并對三種模態進行縮放。
(2)將所述三種模態特征輸入到Masked MultiModel Attention 網絡,結合類Self-Attention方法對其進行處理,得到多模態注意力矩陣,具體分步驟如下:
(2.1)將所述處理后的視覺特征輸入到類Self-Attention網絡得到雙模態注意力矩陣Wfva。
(2.2)將所述的文本特征與雙模態注意力矩陣Wfva輸入到類 Self-Attention網絡得到多模態注意力矩陣Wf;
(3)將所述多模態注意力矩陣輸入到Mask模塊處理得到多模態權重矩陣,之后再與初始文本模態相乘,得到具有多模態權重的文本特征;
(3.1)將多模態注意力矩陣Wf輸入到Mask模塊中輸出多模態權重矩陣Wm。
(3.2)通過MatMul層將多模態權重矩陣Wm與初始文本特征相乘輸出得到Xatt。
(4)將所述的具有多模態權重的文本特征輸入到殘差網絡并進行歸一化,輸出得到情感分類結果。
與現有技術相比,本發明具備的有益效果為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210825285.7/2.html,轉載請聲明來源鉆瓜專利網。





