[發(fā)明專利]一種基于上下文交互關(guān)系的情緒識別方法有效
| 申請?zhí)枺?/td> | 202110409400.8 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113076905B | 公開(公告)日: | 2022-12-16 |
| 發(fā)明(設(shè)計)人: | 李新鵬;丁長興 | 申請(專利權(quán))人: | 華南理工大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V40/10;G06V10/80;G06V10/82;G06N3/04 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 鄭秋松 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 上下文 交互 關(guān)系 情緒 識別 方法 | ||
本發(fā)明公開了一種基于上下文交互關(guān)系的情緒識別方法,該方法步驟包括:將表情數(shù)據(jù)集通過人臉檢測和人體識別得到人臉和身體的邊界框;利用人臉和身體的邊界框?qū)D片進行預(yù)處理,同時將邊界框生成空間掩碼,得到人臉、身體和場景三類圖片;將預(yù)處理圖像分別輸入至預(yù)訓練的三個支路網(wǎng)絡(luò)提取特征,其中上下文交互模塊插入到網(wǎng)絡(luò)的第二層和第四層,在交互模塊中其余支路的特征加權(quán)融合到各個支路上;分別聯(lián)合人臉情緒特征、身體情緒特征和場景情緒特征進行表情分類,形成基于上下文交互關(guān)系的情緒識別模型。本發(fā)明提升了上下文的特征表達能力和抑制上下文存在的噪聲,解決了獨立提取上下文特征時的情緒不確定性和噪聲的問題,使情緒識別的準確率更高。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理與識別技術(shù)領(lǐng)域,具體涉及一種基于上下文交互關(guān)系的情緒識別方法。
背景技術(shù)
自動情緒識別技術(shù)是令機器擁有感知人類情緒狀態(tài)的能力,在需要監(jiān)控人類的環(huán)境下有許多應(yīng)用,包括教育、醫(yī)療和娛樂。當前主流的情緒標簽?zāi)P停悇e標簽和維度標簽,類別標簽主要指基本情緒:生氣、幸福、驚訝、厭惡、傷心和害怕,維度標簽主要是指喚醒維度和正負維度組成的情緒坐標空間。
人類表情是最能體現(xiàn)情緒的特征之一,Ekman認為人類表情具有共性,因此研究者們之分重視從人臉表情提取情緒信息。2020年,Chen提出用標簽分布學習(LDL)的學習范式來緩解在面部表情識別數(shù)據(jù)集中廣泛存在的標注不一致問題。該學習范式允許將具有不同強度的多個標簽關(guān)聯(lián)到單個表情,提出了一種名為“輔助標簽空間圖上的標簽分布學習”(LDL-ALSG)的新穎方法,利用了相關(guān)的任務(wù)(例如動作單元識別和面部標志檢測)的標簽拓撲信息來制作標簽分布。Wang為了解決由于不明確的面部表情,低質(zhì)量的面部圖像和注釋者的主觀性導致的不確定性,提出了一種簡單而有效的SelfCure Network(SCN),該網(wǎng)絡(luò)可以有效地抑制不確定性并防止深度網(wǎng)絡(luò)過度擬合不確定的面部圖像。具體而言,SCN從兩個不同方面抑制了不確定性:1)在小批量生產(chǎn)中采用自我注意機制,以排名正則化對每個訓練樣本進行加權(quán);2)謹慎的重新標記機制,修改這些低排位樣本的標簽。
2019年,Shen認為肢體手勢是“肢體語言”的重要組成部分,介紹了一項探索性實驗,目的是僅從手勢中使用深度學習來識別情緒;Sapi′nski認為身體運動在自動情緒分析中被低估了,提出了一種利用身體運動來識別七個基本情緒狀態(tài)(即快樂,悲傷,驚奇,恐懼,憤怒,厭惡和中立)的新穎方法,所提出的算法基于從跟蹤的骨骼中關(guān)節(jié)的空間位置和方向推斷出的低級特征,創(chuàng)建了情感運動的順序模型。2020年,Luo認為人類天生就準備具備從微妙的肢體動作中理解他人情感表達的能力,并提出了一種可擴展且可靠的眾包方法,用于收集在野生環(huán)境中感知到的情感數(shù)據(jù),以供計算機學習識別人類的肢體語言。為此,創(chuàng)建了一個龐大且不斷增長的帶注釋的數(shù)據(jù)集,其中包含9,876個人體動作視頻剪輯和13,239個人類角色,名為BoLD(肢體語言數(shù)據(jù)集)。
對于真實場景下的圖片,頭部和頭部可能受到遮擋模糊等外部干擾和表意不清等內(nèi)部噪聲,都不足以清晰地表達情緒時,研究者們關(guān)注到從場景中提取情緒信息,提升情緒識別準確率。2019年,Lee提出用于情境感知的情感識別的深層網(wǎng)絡(luò)CAERNet,該網(wǎng)絡(luò)不僅利用人的面部表情,而且還以聯(lián)合和增強的方式利用了情境信息,其關(guān)鍵思想是將人臉隱藏在視覺場景中,并基于注意力機制尋求其他上下文。該網(wǎng)絡(luò)由兩個子網(wǎng)組成,其中包括分別提取面部和上下文區(qū)域特征的編碼網(wǎng)絡(luò),以及以自適應(yīng)方式融合這些特征的自適應(yīng)融合網(wǎng)絡(luò)。2020年,Mittal提出了EmotiCon,用于從視頻和圖像中識別上下文感知的人類情感。受心理學的弗雷格的情境原理啟發(fā),結(jié)合了三種情境解釋來進行情感識別,分別是:臉部和步態(tài)多模態(tài),使用自注意力機制編碼的語義上下文,代表社會互動的深度圖,在EMOTIC數(shù)據(jù)集的平均精確度(AP)得分為35.48。
當前情緒識別的工作結(jié)合上下文信息提取情緒線索,但主要從頭部、身體和場景單獨提取情緒線索,忽略了上下文情緒的交互關(guān)系,導致身體或者場景的情緒不確定性增強,降低模型的預(yù)測能力。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110409400.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





