[發(fā)明專利]一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010973218.0 | 申請(qǐng)日: | 2020-09-16 |
| 公開(公告)號(hào): | CN112083806B | 公開(公告)日: | 2021-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 劉卓;鄧曉燕;潘文豪;潘粵成;蔡典侖 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G06F3/01 | 分類號(hào): | G06F3/01;G06F3/16;G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 詹麗紅 |
| 地址: | 510640 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 識(shí)別 自學(xué)習(xí) 情感 交互 方法 | ||
本發(fā)明公開了一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法,步驟如下:非接觸式通道分別采集語(yǔ)音、人臉和手勢(shì)信號(hào);對(duì)信號(hào)進(jìn)行特征提取,得到信號(hào)初步特征;特征輸入到雙向LSTM層,得到單模態(tài)私有信息和多模態(tài)交互信息,根據(jù)這些信息得到融合特征;基于分類學(xué)習(xí)算法,結(jié)合多模態(tài)融合特征和歷史情緒狀態(tài)曲線預(yù)測(cè)用戶情緒,選擇交互模式;在交互模式下,根據(jù)對(duì)話記憶網(wǎng)絡(luò)給出交互應(yīng)答;最后,根據(jù)交互效果對(duì)情緒狀態(tài)曲線和對(duì)話記憶網(wǎng)絡(luò)進(jìn)行反饋和優(yōu)化。本發(fā)明允許操作者通過非接觸式人機(jī)交互接口多通道輸入信息,對(duì)多模態(tài)的融合特征綜合考慮,結(jié)合情緒歷史狀態(tài)和對(duì)話記憶網(wǎng)絡(luò),完成交互任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,具體涉及一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法。
背景技術(shù)
智能人機(jī)交互是人工智能發(fā)展的一個(gè)重要方向,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,對(duì)人機(jī)交互的類人化和自然性提出了更高的要求。
目前的交互技術(shù)較為單一,多為單純的文字或語(yǔ)音交互,一些所謂的多模態(tài)交互方式只是對(duì)多模態(tài)特征進(jìn)行簡(jiǎn)單的加法操作,是對(duì)多個(gè)單模態(tài)信息的單獨(dú)處理,沒有考慮多模態(tài)信息之間的交互作用信息,使得多個(gè)模態(tài)之間存在歧義,不能實(shí)現(xiàn)完整的、無歧義的交互任務(wù)。同時(shí),大多數(shù)的交互方式?jīng)]有考慮用戶的情緒和心理的連續(xù)性和時(shí)間累積效應(yīng),也沒有考慮對(duì)話的上下文及語(yǔ)義的連貫性,無自適應(yīng)和自學(xué)習(xí)的能力,只能對(duì)特定的場(chǎng)景和意圖進(jìn)行交互,無法滿足日益增長(zhǎng)的交互需求。人的自然交互是離不開情緒變化的,情緒的表達(dá)通常是通過語(yǔ)言、視覺和行為動(dòng)作之間的相互作用共同完成的,同時(shí)人的情感具有時(shí)變性,對(duì)話具有連續(xù)性。目前亟待提出一種能夠綜合考慮多模態(tài)之間的交互作用關(guān)系,并能適應(yīng)復(fù)雜多變的場(chǎng)景,具有自學(xué)習(xí)和自適應(yīng)能力的交互新方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決交互能力不足的缺陷,提供一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法,該方法允許操作者通過非接觸式人機(jī)交互接口多通道輸入信息,對(duì)多模態(tài)的融合特征綜合考慮,結(jié)合情緒歷史狀態(tài)和對(duì)話記憶網(wǎng)絡(luò),完成交互任務(wù)。
本發(fā)明的目的可以通過采取如下技術(shù)方案達(dá)到:
一種基于多模態(tài)識(shí)別的自學(xué)習(xí)情感交互方法,所述的自學(xué)習(xí)情感交互方法包括以下步驟:
S1、利用麥克風(fēng)陣列和攝像頭非接觸式通道分別采集語(yǔ)音、人臉和手勢(shì)信息;
S2、提取語(yǔ)音、人臉和手勢(shì)信號(hào)特征,初步得到語(yǔ)音情感特征l、人臉特征f、手勢(shì)特征h,記N={l,f,h},其中,N是語(yǔ)言情感特征l、人臉特征f、手勢(shì)特征h信息的集合;
S3、將語(yǔ)音情感特征l、人臉特征f、手勢(shì)特征h輸入到不同的雙向LSTM網(wǎng)絡(luò)層,得到單模態(tài)信息和多模態(tài)交互信息,根據(jù)單模態(tài)信息和多模態(tài)交互信息得到語(yǔ)音情感模態(tài)、人臉模態(tài)以及手勢(shì)模態(tài)的三模態(tài)融合特征;
S4、基于XGBOOST學(xué)習(xí)算法,結(jié)合多模態(tài)融合特征和情緒歷史狀態(tài)曲線預(yù)測(cè)用戶情緒,選擇交互模式;
S5、利用麥克風(fēng)陣列和攝像頭非接觸式通道多次分別采集語(yǔ)音、人臉和手勢(shì)信號(hào),并分別提取語(yǔ)音情感特征l、人臉特征f、手勢(shì)特征h,得到情緒狀態(tài)曲線反饋,并以此進(jìn)行對(duì)話記憶網(wǎng)絡(luò)優(yōu)化;
S6、在相應(yīng)交互模式下,通過優(yōu)化后的對(duì)話記憶網(wǎng)絡(luò)給出交互應(yīng)答。
進(jìn)一步地,所述的步驟S2過程如下:
S21、對(duì)采集的語(yǔ)音信息,基于隱馬爾可夫模型,提取語(yǔ)音Mel濾波器組倒譜特征,包括短時(shí)能量、共振峰、子帶能量的短時(shí)特征,得到語(yǔ)言情感特征l;
S22、對(duì)采集的人臉信息,輸入到多層卷積神經(jīng)網(wǎng)絡(luò),用6個(gè)5x5的卷積核過濾器進(jìn)行卷積,得到人臉特征f;
S23、對(duì)采集的手勢(shì)信息,基于手勢(shì)的Hu矩以及指尖數(shù),輸入到BP神經(jīng)網(wǎng)絡(luò),得到手勢(shì)特征h。
進(jìn)一步地,所述的步驟S3過程如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010973218.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種低成本自學(xué)習(xí)溫控器及其方法
- 一種改善換規(guī)格首塊帶鋼板形質(zhì)量的自學(xué)習(xí)方法
- AMT系統(tǒng)擋位判別基準(zhǔn)的自學(xué)習(xí)及自適應(yīng)控制方法和系統(tǒng)
- 矢量型變頻器自學(xué)習(xí)方法
- EMS系統(tǒng)油品自學(xué)習(xí)值的修正方法
- 一種變速箱復(fù)位自學(xué)習(xí)方法及相關(guān)裝置
- 基于單邊驅(qū)動(dòng)的EGR閥自學(xué)習(xí)方法
- 一種基于插值計(jì)算的電噴系統(tǒng)閉環(huán)自學(xué)習(xí)控制方法
- 一種ECU自學(xué)習(xí)數(shù)據(jù)備份方法及系統(tǒng)
- 一種可變氣門正時(shí)系統(tǒng)的自學(xué)習(xí)控制方法、系統(tǒng)及車輛





