[發(fā)明專利]多模態(tài)情感識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110200140.3 | 申請(qǐng)日: | 2021-02-23 |
| 公開(公告)號(hào): | CN112559835B | 公開(公告)日: | 2021-09-14 |
| 發(fā)明(設(shè)計(jì))人: | 陶建華;孫立才;劉斌;柳雪飛 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G06F16/906 | 分類號(hào): | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏泰和知識(shí)產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒;劉蔓莉 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多模態(tài) 情感 識(shí)別 方法 | ||
本申請(qǐng)涉及多模態(tài)情感識(shí)別方法,包括:分別提取幀級(jí)別的音頻特征、幀級(jí)別的視頻特征和詞級(jí)別的文本特征;將提取出的特征分別輸入到特征編碼器進(jìn)行建模,得到編碼后的音頻編碼、視頻編碼和文本編碼特征;將編碼后的特征先分別經(jīng)過(guò)各自的自注意力模塊對(duì)模態(tài)內(nèi)的交互關(guān)系進(jìn)行建模,將其進(jìn)行兩兩排序組合輸入至跨模態(tài)注意力模塊對(duì)兩兩模態(tài)間的交互關(guān)系進(jìn)行建模;對(duì)上述自注意力模塊和跨模態(tài)注意力模塊的輸出進(jìn)行時(shí)序池化得到各模態(tài)內(nèi)的全局交互特征,兩兩模態(tài)間的全局交互特征;利用注意力機(jī)制分別將這上述模態(tài)內(nèi)和模態(tài)間的全局交互特征進(jìn)行加權(quán)融合得到整個(gè)待測(cè)樣本模態(tài)內(nèi)和模態(tài)間的特征表示,將二者進(jìn)行拼接經(jīng)過(guò)全連接網(wǎng)絡(luò)得到最終的情感分類結(jié)果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及多模態(tài)情感識(shí)別方法。
背景技術(shù)
傳統(tǒng)的情感識(shí)別往往局限于單一模態(tài),比如語(yǔ)音情感識(shí)別,表情識(shí)別和文本情感分析等。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,基于音視頻和文本的多模態(tài)情感識(shí)別方法應(yīng)運(yùn)而生,未來(lái)在智能家居、教育以及金融等領(lǐng)域?qū)?huì)有著廣泛的應(yīng)用。現(xiàn)有的多模態(tài)情感識(shí)別方法通常采用特征層融合或者決策層融合對(duì)多個(gè)模態(tài)的信息進(jìn)行整合。這些方法都有著各自的優(yōu)缺點(diǎn)。特征層融合雖然能對(duì)模態(tài)間的交互進(jìn)行建模但需要事先在時(shí)序上對(duì)齊不同模態(tài)的特征,決策層融合則與之相反,它不需要模態(tài)對(duì)齊信息,付出的代價(jià)是缺乏對(duì)模態(tài)間交互信息的有效挖掘,因此在融合多模態(tài)信息時(shí)如何有效地結(jié)合二者的優(yōu)點(diǎn)就顯得十分重要。此外,除了多模態(tài)融合外,在模型架構(gòu)方面,目前的多模態(tài)情感識(shí)別方法主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)用于捕獲時(shí)序上下文信息,相較于注意力機(jī)制來(lái)說(shuō),對(duì)于長(zhǎng)序列上下文建模顯得捉襟見(jiàn)肘。
授權(quán)公告號(hào)CN 107945790 B公開了一種情感識(shí)別方法和情感識(shí)別系統(tǒng),其中,該方法包括:獲取當(dāng)前語(yǔ)音信號(hào);提取當(dāng)前語(yǔ)音信號(hào)的語(yǔ)音特征,語(yǔ)音特征包括:聲學(xué)特征和文本特征;根據(jù)語(yǔ)音特征和預(yù)設(shè)深度模型,識(shí)別當(dāng)前語(yǔ)音信號(hào)對(duì)應(yīng)的情感類型,情感類型包括:正面、中性和負(fù)面,本發(fā)明的技術(shù)方案能夠通過(guò)語(yǔ)音信號(hào)識(shí)別出對(duì)應(yīng)的情感類型,以對(duì)服務(wù)人員進(jìn)行監(jiān)督提高服務(wù)水平。
申請(qǐng)公布號(hào)CN 108805089 A公開一種基于多模態(tài)的情緒識(shí)別方法,包括數(shù)據(jù)采集設(shè)備、輸出設(shè)備、情緒分析軟件系統(tǒng),情緒分析軟件系統(tǒng)通過(guò)對(duì)數(shù)據(jù)采集設(shè)備得到的數(shù)據(jù)進(jìn)行綜合分析推理,最終把結(jié)果輸出至輸出設(shè)備上;具體步驟為:基于面部圖像表情情緒識(shí)別步驟、基于語(yǔ)音信號(hào)情緒識(shí)別步驟、基于文本語(yǔ)義情感分析步驟、基于人體姿態(tài)情緒識(shí)別步驟、基于生理信號(hào)情緒識(shí)別步驟,以及基于多輪對(duì)話語(yǔ)義理解步驟和基于時(shí)序多模態(tài)情緒語(yǔ)義融合關(guān)聯(lián)判斷步驟。本發(fā)明突破性的打通了五大單模態(tài)的情緒識(shí)別,創(chuàng)新性的利用深度神經(jīng)網(wǎng)絡(luò)將多個(gè)單模態(tài)的信息由神經(jīng)網(wǎng)絡(luò)編碼、深度的關(guān)聯(lián)和理解后進(jìn)行綜合判斷,大幅度的提高了準(zhǔn)確率,適用于絕大多數(shù)一般問(wèn)詢互動(dòng)類應(yīng)用場(chǎng)景。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題或者至少部分地解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N多模態(tài)情感識(shí)別方法,包括:
S1:輸入待測(cè)樣本的音頻文件、視頻文件及對(duì)應(yīng)的文本文件,分別對(duì)所述音頻文件、視頻文件和文本文件進(jìn)行特征提取,得到幀級(jí)別的音頻特征、幀級(jí)別的視頻特征和詞級(jí)別的文本特征;
S2:將所述幀級(jí)別的音頻特征、幀級(jí)別的視頻特征和詞級(jí)別的文本特征分別輸入到音頻特征編碼器、視頻特征編碼器和文本特征編碼器進(jìn)行局部上下文建模,得到音頻編碼特征、視頻編碼特征和文本編碼特征;
S3:一方面將所述音頻編碼特征、視頻編碼特征和文本編碼特征分別經(jīng)過(guò)各自的自注意力模塊對(duì)模態(tài)內(nèi)的交互關(guān)系進(jìn)行建模,得到,模態(tài)內(nèi)特征,所述模態(tài)內(nèi)特征包括:模態(tài)內(nèi)音頻特征、模態(tài)內(nèi)視頻特征和模態(tài)內(nèi)文本特征;
S4:另一方面將所述音頻編碼特征、視頻編碼特征和文本編碼特征進(jìn)行兩兩排序組合輸入至跨模態(tài)注意力模塊對(duì)兩兩模態(tài)間的交互關(guān)系進(jìn)行建模,得到,模態(tài)間特征,所述模態(tài)間特征包括:音頻-視頻交互特征、音頻-文本交互特征和視頻-文本交互特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110200140.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





