[發(fā)明專利]基于子空間稀疏特征融合的多模態(tài)情感識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011019175.9 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN111931795B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計)人: | 李樹濤;馬付嚴;孫斌 | 申請(專利權(quán))人: | 湖南大學(xué) |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 湖南兆弘專利事務(wù)所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 空間 稀疏 特征 融合 多模態(tài) 情感 識別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于子空間稀疏特征融合的多模態(tài)情感識別方法及系統(tǒng),本發(fā)明方法包括獲取多種模態(tài)的特征序列,并進行字級對齊和規(guī)范化處理、位置編碼,然后輸入對應(yīng)的多分支稀疏注意力模塊、分解至低維特征子空間得到低維特征,基于權(quán)重將所有低維特征在低維特征子空間進行級聯(lián),通過多分支稀疏注意力網(wǎng)絡(luò)中訓(xùn)練得到融合后的多模態(tài)信息,再輸入預(yù)先訓(xùn)練好的情感分類器,得到被識別對象當(dāng)前的情感類別,所述情感分類器被預(yù)先訓(xùn)練建立了融合后的多模態(tài)信息、情感類別之間的映射。本發(fā)明通過考慮時序信息之間的關(guān)聯(lián)稀疏性,將多模態(tài)信息分解至多個子空間中進行融合,能夠捕獲模態(tài)內(nèi)和模態(tài)間的上下文信息,提升了多模態(tài)情感識別的準確率。
技術(shù)領(lǐng)域
本發(fā)明涉及多模態(tài)人機自然交互技術(shù),具體涉及一種基于子空間稀疏特征融合的多模態(tài)情感識別方法及系統(tǒng)。
背景技術(shù)
多模態(tài)人機自然交互面臨情感化挑戰(zhàn),要攻克多模態(tài)人機自然交互中面臨的情感化挑戰(zhàn),首先必須解決機器人理解和識別人類情感的問題,因此情感識別是人機交互領(lǐng)域的重要研究課題,近年來取得快速發(fā)展。單獨利用面部圖像或語音信號進行情感識別的準確率處于瓶頸狀態(tài),且魯棒性較差。比起單模態(tài)情感識別,多模態(tài)情感識別更能全面地利用語音、面部表情圖像和文本中的情感信號,進一步提升情感識別水平。因此,越來越多的研究者將目光聚焦于多模態(tài)情感識別研究。
但是,多模態(tài)情感識別存在許多亟待解決和突破的難題,主要包括:第一,不同模態(tài)情感特征的表示和融合。音、視頻信息通過不同傳感器采集,數(shù)據(jù)格式和捕獲速率不同,多模態(tài)信號中的情感特征統(tǒng)一表示和融合問題尚未解決。第二,模態(tài)信息缺失。現(xiàn)有的多模態(tài)情感識別方法一般假設(shè)多模態(tài)信息完全獲取,未考慮某一模態(tài)缺失,但在真實環(huán)境中噪聲、遮擋會導(dǎo)致音、視頻模態(tài)缺失的情況發(fā)生。第三,情感特征的不確定因素影響。語言、性別和文化會導(dǎo)致不同場景下特定情緒狀態(tài)的表達差異。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題:針對現(xiàn)有技術(shù)的上述問題,提供一種基于子空間稀疏特征融合的多模態(tài)情感識別方法及系統(tǒng),本發(fā)明通過考慮時序信息之間的關(guān)聯(lián)稀疏性,將多模態(tài)信息分解至多個子空間中進行融合,能夠捕獲模態(tài)內(nèi)和模態(tài)間的上下文信息,提升了多模態(tài)情感識別的準確率。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
一種基于子空間稀疏特征融合的多模態(tài)情感識別方法,包括:
1)獲取被識別對象當(dāng)前的多種模態(tài)的特征序列;
2)將多種模態(tài)的特征序列進行字級對齊和規(guī)范化處理;
3)將被識別對象的多種模態(tài)的特征序列分別通過位置編碼得到引入位置信息的特征序列,然后分別將各個模態(tài)下引入位置信息的特征序列輸入對應(yīng)的多分支稀疏注意力模塊得到各個模態(tài)對應(yīng)的高維特征;
4)將各個模態(tài)對應(yīng)的高維特征分解至低維特征子空間得到低維特征,為多個低維特征賦予相應(yīng)的權(quán)重,然后基于權(quán)重將所有低維特征在低維特征子空間進行級聯(lián),得到級聯(lián)后的低維特征;
5)將級聯(lián)后的低維特征通過多分支稀疏注意力網(wǎng)絡(luò)中訓(xùn)練得到融合后的多模態(tài)信息;
6)將融合后的多模態(tài)信息輸入預(yù)先訓(xùn)練好的情感分類器,得到被識別對象當(dāng)前的情感類別,所述情感分類器被預(yù)先訓(xùn)練建立了融合后的多模態(tài)信息、情感類別之間的映射。
可選地,步驟1)中多種模態(tài)的特征包括文本特征序列、音頻特征序列和視頻特征序列。
可選地,步驟2)的步驟包括:將音頻特征序列和視頻特征序列按照文本特征序列進行對齊,記錄第i個單詞的起始時間和結(jié)束時間,分別平均音頻特征序列和視頻特征序列相應(yīng)時間段內(nèi)的特征,并將對齊后的文本特征序列、音頻特征序列和視頻特征序列進行歸一化處理到[0,1]范圍內(nèi),最后限制文本內(nèi)容長度,超出部分進行截取,不足部分進行補0,統(tǒng)一文本特征序列、音頻特征序列和視頻特征序列的特征維度分別為(20,300)、(20,74)、(20,35)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011019175.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





