[發(fā)明專利]一種基于雙模態(tài)組合多學習模型識別器的情感的識別方法及裝置在審
| 申請?zhí)枺?/td> | 202210089694.5 | 申請日: | 2022-01-25 |
| 公開(公告)號: | CN114595744A | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計)人: | 許喜斌;呂烈尉;廖嵐嵐;何芳;陸遠蓉;趙小蕾;王光琴 | 申請(專利權(quán))人: | 廣東工程職業(yè)技術(shù)學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06V10/80;G06V10/764;G06V10/74 |
| 代理公司: | 廣州海心聯(lián)合專利代理事務(wù)所(普通合伙) 44295 | 代理人: | 李哲瑜 |
| 地址: | 510520 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 雙模 組合 學習 模型 識別 情感 方法 裝置 | ||
本發(fā)明公開了一種基于雙模態(tài)組合多學習模型識別器的情感的識別方法,屬于人工智能的技術(shù)領(lǐng)域,利用該識別方法能夠有效識別出情感類別,具有識別率高、魯棒性強的特點;包括如下步驟:(1)將音頻文件分別進行提取后獲得語音特征和文本特征;(2)將語音特征和文本特征進行交互注意力處理,獲得雙模態(tài)交互融合特征S;(3)將雙模態(tài)交互融合特征S分別與語音特征和文本特征進行點乘處理后獲得處理后語音特征Fa和處理后文本特征Ft;(4)將處理后語音特征Fa和處理后文本特征Ft同時送入多個學習模型識別器中識別后再融合處理得到識別結(jié)果。本發(fā)明還公開了實現(xiàn)該種識別方法的裝置。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能的技術(shù)領(lǐng)域,更具體地說,尤其涉及一種基于雙模態(tài)組合多學習模型識別器的情感的識別方法;本發(fā)明還涉及實現(xiàn)該種識別方法的裝置。
背景技術(shù)
人機交互技術(shù)在人工智能領(lǐng)域占據(jù)著重要的地位,而情感識別技術(shù)是人機交互技術(shù)的靈魂,人與計算機之間的交互使計算機能夠識別說話人的情感信息,消除人與計算機的溝通障礙,是人工智能最理想化的應(yīng)用場景,具有廣泛的應(yīng)用價值。現(xiàn)有的識別方法中,為了提高情感識別率,一般有兩種方式:一是通過提升單模態(tài)的情感識別效果從而提升整體多模態(tài)的情感識別效果;二是通過研究改進多模態(tài)信息間的融合方式,來提升整體識別效果。為了打破單一模態(tài)的瓶頸,突破面向應(yīng)用的阻礙,研究多模態(tài)情感識別具有更廣闊的研究價值和應(yīng)用意義。
近年來,研究者們從不同角度展開對多模態(tài)情感識別的研究,主要模態(tài)有語音、視頻、文本、甚至是生理信號等包含人類情感的模態(tài),可以是兩種模態(tài)的組合,或者是多種模態(tài)的組合。如基于人臉表情和語音的雙模態(tài)情感識別,基于語音和視頻圖像模態(tài)的情感識別,融合表情和BVP生理信號的雙模態(tài)視頻情感識別,視頻、語音和文本模態(tài)的研究等。在這些模態(tài)組合中最易于獲取的是語音和文本模態(tài),研究者們往往通過語音和文本語料來評價說話者的情緒,進而完成更高端的人機交互應(yīng)用。
多模態(tài)融合策略主要分為特征層融合和決策層融合。其中最直接的特征層融合方法是將多模態(tài)特征進行級聯(lián),但由于不同模態(tài)特征在語義維度上存在較大差異,可能導致模態(tài)信息無法被有效利用,且可能存在較大的干擾。決策層融合方法對每個模態(tài)單獨提取特征,然后訓練學習模型識別器模型,最后在決策層面進行融合,如投票機制,這種融合方式雖然很大程度上挖掘了單個模態(tài)的內(nèi)部信息,但缺少模態(tài)之間交互信息和關(guān)聯(lián)性的表達。再者,并不是融合的模態(tài)信息越豐富,情感分類的準確率就越高,這主要是因為不同模態(tài)的信息對于情感分類的貢獻是不相等的,為了解決這一問題研究者們引入注意力機制,利用不同模態(tài)之間存在的語義和情感的關(guān)聯(lián),學習不同模態(tài)之間復(fù)雜的交互作用,使用注意力機制過濾冗余信息,保留模態(tài)之間的交互特征和共性特征。
在特征提取方面不少現(xiàn)有的研究更多是依賴于深度學習模型識別器自動提取特征,然而特征解釋性和效率均較低,且模型復(fù)雜度高、訓練時間長。因此,亟待發(fā)明一種識別率更高的識別過程更簡單的識別方法,以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于雙模態(tài)組合多學習模型識別器的情感的識別方法,利用該識別方法能夠有效識別出情感類別,具有識別率高、魯棒性強的特點。本發(fā)明還提供了實現(xiàn)該種識別方法的裝置。
本發(fā)明的技術(shù)方案如下:
一種基于雙模態(tài)組合多學習模型識別器的情感的識別方法,包括如下步驟:
(1)將音頻文件分別進行提取后獲得語音特征和文本特征;
(2)將語音特征和文本特征進行交互注意力處理,獲得雙模態(tài)交互融合特征S;
(3)將雙模態(tài)交互融合特征S分別與語音特征和文本特征進行點乘處理后獲得處理后語音特征Fa和處理后文本特征Ft;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工程職業(yè)技術(shù)學院,未經(jīng)廣東工程職業(yè)技術(shù)學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210089694.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





