[發(fā)明專利]一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法有效
| 申請?zhí)枺?/td> | 202010973218.0 | 申請日: | 2020-09-16 |
| 公開(公告)號(hào): | CN112083806B | 公開(公告)日: | 2021-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 劉卓;鄧曉燕;潘文豪;潘粵成;蔡典侖 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G06F3/01 | 分類號(hào): | G06F3/01;G06F3/16;G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 詹麗紅 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 識(shí)別 自學(xué)習(xí) 情感 交互 方法 | ||
1.一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法,其特征在于,所述的自學(xué)習(xí)情感交互方法包括以下步驟:
S1、利用麥克風(fēng)陣列和攝像頭非接觸式通道分別采集語音、人臉和手勢信息;
S2、提取語音、人臉和手勢信號(hào)特征,初步得到語音情感特征l、人臉特征f、手勢特征h,記N={l,f,h},其中,N是語言情感特征l、人臉特征f、手勢特征h信息的集合;
S3、將語音情感特征l、人臉特征f、手勢特征h輸入到不同的雙向LSTM網(wǎng)絡(luò)層,得到單模態(tài)信息和多模態(tài)交互信息,根據(jù)單模態(tài)信息和多模態(tài)交互信息得到語音情感模態(tài)、人臉模態(tài)以及手勢模態(tài)的三模態(tài)融合特征;
S4、基于XGBOOST學(xué)習(xí)算法,結(jié)合多模態(tài)融合特征和情緒歷史狀態(tài)曲線預(yù)測用戶情緒,選擇交互模式;
S5、利用麥克風(fēng)陣列和攝像頭非接觸式通道多次分別采集語音、人臉和手勢信號(hào),并分別提取語音情感特征l、人臉特征f、手勢特征h,得到情緒狀態(tài)曲線反饋,并以此進(jìn)行對話記憶網(wǎng)絡(luò)優(yōu)化;
S6、在相應(yīng)交互模式下,通過優(yōu)化后的對話記憶網(wǎng)絡(luò)給出交互應(yīng)答;
其中,所述的步驟S2過程如下:
S21、對采集的語音信息,基于隱馬爾可夫模型,提取語音Mel濾波器組倒譜特征,包括短時(shí)能量、共振峰、子帶能量的短時(shí)特征,得到語言情感特征l;
S22、對采集的人臉信息,輸入到多層卷積神經(jīng)網(wǎng)絡(luò),用6個(gè)5x5的卷積核過濾器進(jìn)行卷積,得到人臉特征f;
S23、對采集的手勢信息,基于手勢的Hu矩以及指尖數(shù),輸入到BP神經(jīng)網(wǎng)絡(luò),得到手勢特征h;
其中,所述的步驟S3過程如下:
S31、將語音情感特征l、人臉特征f、手勢特征h分別通過私有的雙向LSTM網(wǎng)絡(luò)層進(jìn)行編碼,獲得單個(gè)模態(tài)的內(nèi)部變化信息,經(jīng)過私有的雙向LSTM網(wǎng)絡(luò)層向量拼接得到單模態(tài)的語音情感表示人臉表示和手勢表示
S32、將語音情感特征l、人臉特征f、手勢特征h分別進(jìn)行兩兩組合得到3種雙模態(tài)信息,將3種雙模態(tài)信息通過共享的雙向LSTM網(wǎng)絡(luò)層,獲得雙模態(tài)之間的動(dòng)態(tài)交互作用信息,將經(jīng)過共享的雙向LSTM網(wǎng)絡(luò)層向量拼接得到的雙模態(tài)組合表示如下:
a1為語音情感和人臉的雙模態(tài)組合,經(jīng)過共享的雙向LSTM層得到的語音情感表示和人臉表示
a2為語音情感和手勢的雙模態(tài)組合,經(jīng)過共享的雙向LSTM層得到的語音情感表示和手勢表示
a3為人臉和手勢的雙模態(tài)組合,經(jīng)過共享的雙向LSTM層得到的人臉表示和手勢表示
S33、將語音情感特征l、人臉特征f、手勢特征h通過共享的雙向LSTM網(wǎng)絡(luò)層,分別獲得3種模態(tài)之間的動(dòng)態(tài)交互作用信息,其中,語音情感特征l經(jīng)過共享的雙向LSTM網(wǎng)絡(luò)層的語音情感表示為人臉特征f經(jīng)過共享的雙向LSTM網(wǎng)絡(luò)層的人臉表示為手勢特征h經(jīng)過共享的雙向LSTM網(wǎng)絡(luò)層的手勢表示
S34、將私有的雙向LSTM網(wǎng)絡(luò)層與共享的雙向LSTM網(wǎng)絡(luò)層獲得的模態(tài)信息融合到一起,通過向量拼接操作,分別獲得語音情感模態(tài)信息、人臉模態(tài)信息以及手勢模態(tài)信息的表示為:
S35、將語音情感模態(tài)信息、人臉模態(tài)信息以及手勢模態(tài)信息進(jìn)行向量拼接,獲得語音情感模態(tài)、人臉模態(tài)以及手勢模態(tài)的三模態(tài)融合特征表示:
其中,⊕表示向量拼接;
其中,所述的步驟S4過程如下:
S41、通過隨機(jī)抽樣采集人對多種模態(tài)信息的情緒識(shí)別數(shù)據(jù),通過對該數(shù)據(jù)進(jìn)行標(biāo)注,獲得多模態(tài)情緒識(shí)別的類人化識(shí)別數(shù)據(jù)集;
其中,所述的人對多種模態(tài)信息的情緒識(shí)別數(shù)據(jù)包括多模態(tài)信息特征矩陣F和情緒結(jié)果矩陣E,其中,多模態(tài)信息特征矩陣F和情緒結(jié)果矩陣E的定義分別如下:
將多模態(tài)信息特征矩陣F和情緒結(jié)果矩陣E合并得到輸入矩陣Si:
樣本數(shù)據(jù)經(jīng)過標(biāo)注后導(dǎo)入輸出矩陣So:
其中,F(xiàn)i,i=0,1,2…n為多模態(tài)信息的完整融合特征,Ei,i=0,1,2…n為情緒狀態(tài)樣本數(shù)據(jù),Ci,i=0,1,2…n為交互模式輸出標(biāo)注數(shù)據(jù),下標(biāo)i代表第i個(gè)樣本數(shù)據(jù),n為樣本容量;
S42、使用XGBOOST學(xué)習(xí)算法將獲得的多模態(tài)情緒識(shí)別的類人化識(shí)別數(shù)據(jù)集訓(xùn)練為一系列CART樹,其過程為:
設(shè)置CART樹的數(shù)量和初始權(quán)重;
導(dǎo)入一組類人化識(shí)別數(shù)據(jù)集,根據(jù)初始權(quán)重產(chǎn)生一棵CART樹,然后逐漸迭代,每次迭代過程中增加一棵CART樹,逐漸形成眾多樹模型集成的強(qiáng)評估器,導(dǎo)入多組類人化識(shí)別數(shù)據(jù)集,采用boosting式集成學(xué)習(xí)算法,對權(quán)重進(jìn)行優(yōu)化,得到基于多模態(tài)融合特征的情緒識(shí)別網(wǎng)絡(luò)初步框架;
S43、記錄下第n次交互時(shí)的情緒識(shí)別數(shù)據(jù)Tn,結(jié)合前n-1次情緒識(shí)別的歷史數(shù)據(jù)T1~Tn-1,采取非線性插值的方法,擬合出情緒歷史狀態(tài)曲線;
S44、對于多模態(tài)融合特征的情緒識(shí)別網(wǎng)絡(luò),使其結(jié)合情緒歷史狀態(tài)曲線上各點(diǎn)的情緒識(shí)別數(shù)據(jù),再次使用XGBOOST學(xué)習(xí)算法重新訓(xùn)練,獲得結(jié)合多模態(tài)特征和情緒歷史狀態(tài)的情緒識(shí)別網(wǎng)絡(luò);其中,所述的情緒識(shí)別網(wǎng)絡(luò)為三層卷積神經(jīng)網(wǎng)絡(luò),使用3個(gè)5x5的卷積核過濾器進(jìn)行卷積,情緒識(shí)別網(wǎng)絡(luò)的輸入為語音情感模態(tài)、人臉模態(tài)以及手勢模態(tài)的三模態(tài)融合特征,情緒識(shí)別網(wǎng)絡(luò)的輸出為情緒識(shí)別結(jié)果;
其中,所述的步驟S5過程如下:
將第n次交互時(shí)的情緒識(shí)別數(shù)據(jù)Tn反饋給情緒歷史狀態(tài),擬合出新的情緒歷史狀態(tài)曲線;將對話內(nèi)容反饋給對話記憶網(wǎng)絡(luò),對話記憶網(wǎng)絡(luò)重新進(jìn)行權(quán)重處理,實(shí)現(xiàn)對話記憶網(wǎng)絡(luò)的優(yōu)化,通過此次交互實(shí)現(xiàn)數(shù)據(jù)集更新和網(wǎng)絡(luò)優(yōu)化,實(shí)現(xiàn)自學(xué)習(xí)功能;
其中,所述的步驟S5過程如下:
S61、將多模態(tài)特征輸入到經(jīng)過訓(xùn)練的情緒識(shí)別網(wǎng)絡(luò),獲取情緒識(shí)別數(shù)據(jù),選擇交互模式;
S62、在相應(yīng)交互模式下,將對話內(nèi)容輸入到對話記憶網(wǎng)絡(luò),抽取對話記憶,獲得交互應(yīng)答;其中,所述的對話記憶網(wǎng)絡(luò)包括輸入編碼層、記憶更新層、記憶卡、輸出層、應(yīng)答層,分別說明如下:
輸入編碼層I:輸入為文本,該層的輸入即整個(gè)對話記憶網(wǎng)絡(luò)的輸入,輸出為網(wǎng)絡(luò)中內(nèi)在向量,該層的輸出作為記憶更新層的輸入;
記憶更新層G:輸入為網(wǎng)絡(luò)中內(nèi)在向量,輸出為根據(jù)內(nèi)在向量更新后的對話記憶,該層的輸出作為記憶卡的輸入;
記憶卡M:用于存儲(chǔ)對話記憶,記憶更新層可對其進(jìn)行讀、寫操作,即數(shù)據(jù)的雙向傳輸,該層的輸出作為輸出層的輸入;
輸出層O:輸入為記憶卡中讀取的對話記憶,輸出為結(jié)合特定問題后給出的應(yīng)答向量,該層的輸出作為應(yīng)答層的輸入;
應(yīng)答層R:輸入為應(yīng)答向量,輸出為應(yīng)答向量對應(yīng)的文本格式,該層的輸出即整個(gè)對話記憶網(wǎng)絡(luò)的輸出。
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法,其特征在于,所述的多模態(tài)情緒識(shí)別的類人化識(shí)別數(shù)據(jù)集包括6種不同的情緒,分別是:憤怒、恐懼、厭惡、悲傷、高興和驚訝。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010973218.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種低成本自學(xué)習(xí)溫控器及其方法
- 一種改善換規(guī)格首塊帶鋼板形質(zhì)量的自學(xué)習(xí)方法
- AMT系統(tǒng)擋位判別基準(zhǔn)的自學(xué)習(xí)及自適應(yīng)控制方法和系統(tǒng)
- 矢量型變頻器自學(xué)習(xí)方法
- EMS系統(tǒng)油品自學(xué)習(xí)值的修正方法
- 一種變速箱復(fù)位自學(xué)習(xí)方法及相關(guān)裝置
- 基于單邊驅(qū)動(dòng)的EGR閥自學(xué)習(xí)方法
- 一種基于插值計(jì)算的電噴系統(tǒng)閉環(huán)自學(xué)習(xí)控制方法
- 一種ECU自學(xué)習(xí)數(shù)據(jù)備份方法及系統(tǒng)
- 一種可變氣門正時(shí)系統(tǒng)的自學(xué)習(xí)控制方法、系統(tǒng)及車輛





