[發(fā)明專利]基于融合注意力網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910324053.1 | 申請(qǐng)日: | 2019-04-22 |
| 公開(公告)號(hào): | CN110188343B | 公開(公告)日: | 2023-01-31 |
| 發(fā)明(設(shè)計(jì))人: | 宦若虹;鮑晟霖;葛羅棋;謝超杰 | 申請(qǐng)(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/205 | 分類號(hào): | G06F40/205;G06V10/764;G06V10/80 |
| 代理公司: | 杭州斯可睿專利事務(wù)所有限公司 33241 | 代理人: | 王利強(qiáng) |
| 地址: | 310014 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 融合 注意力 網(wǎng)絡(luò) 多模態(tài) 情感 識(shí)別 方法 | ||
一種基于融合注意力網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法,提取文本、視覺和音頻三個(gè)模態(tài)的高維特征并按字級(jí)對(duì)齊和歸一化處理,然后輸入至雙向門控循環(huán)單元網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提取三個(gè)單模態(tài)子網(wǎng)絡(luò)中的雙向門控循環(huán)單元網(wǎng)絡(luò)輸出的狀態(tài)信息計(jì)算多模態(tài)間狀態(tài)信息的相關(guān)度,再計(jì)算多個(gè)模態(tài)每一時(shí)刻的注意力分布,即每一時(shí)刻狀態(tài)信息的權(quán)重參數(shù),將三個(gè)模態(tài)子網(wǎng)絡(luò)的狀態(tài)信息和對(duì)應(yīng)的權(quán)重參數(shù)加權(quán)平均得到融合特征向量作為全連接網(wǎng)絡(luò)的輸入,將待識(shí)別的文本、視覺和音頻輸入訓(xùn)練后各個(gè)模態(tài)的雙向門控循環(huán)單元網(wǎng)絡(luò),得到最終的情感強(qiáng)度輸出。本發(fā)明能克服多模態(tài)融合時(shí)各模態(tài)的權(quán)重一致性問題,提高多模態(tài)融合下的情感識(shí)別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理、音頻處理、視覺處理、特征提取、深度學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)、情感識(shí)別等領(lǐng)域,尤其涉及一種多模態(tài)情感識(shí)別方法。
背景技術(shù)
情感識(shí)別是自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn),情感識(shí)別的主要挑戰(zhàn)是能夠?qū)Πl(fā)言者的情感進(jìn)行連續(xù)的、實(shí)時(shí)的分析。多模態(tài)情感識(shí)別研究已經(jīng)在多種任務(wù)中取得了巨大進(jìn)步,成為人工智能的新興研究領(lǐng)域。利用人類的面部表情、語音語調(diào)和身體姿態(tài)等信息來識(shí)別人類的情感是一個(gè)有趣而富有挑戰(zhàn)性的問題。在涉及到視頻的多模態(tài)情感識(shí)別研究中,常常將文本、視覺和音頻作為主要的多模態(tài)信息,多模態(tài)融合的目的是將多種模態(tài)信息結(jié)合起來,利用異構(gòu)數(shù)據(jù)的互補(bǔ)性,提供更魯棒的預(yù)測(cè),提高識(shí)別的正確率和可靠性。多模態(tài)融合的一個(gè)重要挑戰(zhàn)是如何將融合擴(kuò)展到多種模態(tài),同時(shí)保持合理的模型復(fù)雜性。
多模態(tài)融合通常是在特征層進(jìn)行的,將多個(gè)高維特征通過運(yùn)算使之成為一個(gè)融合特征,之后將其輸入到模型中進(jìn)行訓(xùn)練。在線性特征融合中,從每一時(shí)刻三個(gè)模態(tài)得到的狀態(tài)信息特征中提取融合特征向量,不同時(shí)刻的融合特征向量相互獨(dú)立而不再是序列數(shù)據(jù),然后輸入到線性融合模型中進(jìn)行學(xué)習(xí)。典型的線性融合方法包括最后一個(gè)時(shí)間步長(zhǎng)的編碼狀態(tài)信息線性融合、最大狀態(tài)信息線性融合和平均狀態(tài)信息線性融合。上述三種線性提取融合特征向量方式的不合理之處在于多模態(tài)融合時(shí)各模態(tài)的權(quán)重一致性問題,即從狀態(tài)信息輸出中挑選特殊的狀態(tài)信息作為編碼狀態(tài)信息,只考慮到任何一個(gè)狀態(tài)信息本身都會(huì)對(duì)最終的情感強(qiáng)度輸出產(chǎn)生一定的影響,沒有考慮到每一個(gè)狀態(tài)信息產(chǎn)生的重要程度并不相同。
發(fā)明內(nèi)容
為了克服多模態(tài)融合時(shí)各模態(tài)的權(quán)重一致性問題,本發(fā)明提出基于融合注意力網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法,該方法能實(shí)時(shí)地計(jì)算多個(gè)模態(tài)每一時(shí)刻的注意力分布,作為對(duì)應(yīng)狀態(tài)信息的權(quán)重參數(shù),使網(wǎng)絡(luò)模型可以實(shí)時(shí)地學(xué)習(xí)多模態(tài)上下文信息,提高多模態(tài)融合下的情感識(shí)別的準(zhǔn)確率。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于融合注意力網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法,所述方法包括以下步驟:
步驟1,提取文本、視覺和音頻三個(gè)模態(tài)的高維特征;
步驟2,將視覺和音頻模態(tài)的高維特征與文本模態(tài)的高維特征按字級(jí)對(duì)齊,并對(duì)文本、視覺和音頻三個(gè)模態(tài)的高維特征進(jìn)行歸一化處理;
步驟3,將字級(jí)對(duì)齊和歸一化處理后的文本、視覺和音頻三個(gè)模態(tài)的高維特征分別輸入至雙向門控循環(huán)單元網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
步驟4,提取三個(gè)單模態(tài)子網(wǎng)絡(luò)中的雙向門控循環(huán)單元網(wǎng)絡(luò)輸出的狀態(tài)信息和其中,是文本模態(tài)子網(wǎng)絡(luò)中雙向門控循環(huán)單元網(wǎng)絡(luò)在i時(shí)刻輸出的狀態(tài)信息,包含了i時(shí)刻的前向狀態(tài)輸出和后向狀態(tài)輸出是視覺模態(tài)子網(wǎng)絡(luò)中雙向門控循環(huán)單元網(wǎng)絡(luò)在i時(shí)刻輸出的狀態(tài)信息,包含了i時(shí)刻的前向狀態(tài)輸出和后向狀態(tài)輸出是音頻模態(tài)子網(wǎng)絡(luò)中雙向門控循環(huán)單元網(wǎng)絡(luò)在i時(shí)刻輸出的狀態(tài)信息,包含了i時(shí)刻的前向狀態(tài)輸出和后向狀態(tài)輸出
步驟5,計(jì)算多模態(tài)間狀態(tài)信息的相關(guān)度si,如式(1)所示:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910324053.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





