[發(fā)明專利]一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法有效
| 申請?zhí)枺?/td> | 202010764408.1 | 申請日: | 2020-08-02 |
| 公開(公告)號: | CN112101096B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設計)人: | 杜廣龍 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/774;G06V20/40;G06V10/80;G06N3/0442;G06V10/82;G06N3/0464;G06N3/049;G06N3/08;G06F18/213;G06F18/2411 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 表情 多模態(tài) 融合 自殺 情緒 感知 方法 | ||
1.一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法,其特征在于,包括以下步驟:
S1、使用帶有紅外攝像頭的Kinect對視頻和音頻進行采集;
S2、對視頻中的圖像幀和音頻使用不同方法分析并轉換為相應的特征文本;
S3、對特征文本進行融合,即降維處理后得到融合特征;采用LSTM網(wǎng)絡、自組織映射和補償層進行特征文本融合和補償,具體步驟如下:
S3.1、首先,把步驟S2中產(chǎn)生的特征文本描述輸入LSTM網(wǎng)絡中,使得特征嵌入到固定大小的向量中;假設存在給定輸入序列x={x1,x2,…,xt,…,xT},t表示第t個特征,共有特征文本T個;則LSTM網(wǎng)絡每一層的計算公式如下:
ht=σh(Wxhxt+Whhht-1+bh);
式中,ht代表在t時刻時隱藏層的輸出,Wxh表示輸入層到隱藏層的權重矩陣,Whh表示隱藏層到隱藏層的權重矩陣,bh表示隱藏層的偏差,σh表示激活函數(shù);
S3.2、采用自組織映射算法對步驟S3.1中的向量進行歸一化的處理;所述自組織映射算法包括以下步驟:
S3.2.1、步驟S3.1產(chǎn)生的向量作為SOM算法的輸入,并確定相應的輸出,以最大的函數(shù)值來表示情感類別;
S3.2.2、確定獲勝神經(jīng)元的鄰域范圍,并在此范圍內調整神經(jīng)元的權重,使得權重向著文本描述嵌入向量的方向收斂;
S3.2.3、隨著不斷學習發(fā)展,鄰域范圍縮小,文本描述的特征向量將相互分離,輸出結果向量會代表一個情感類別;
S3.3、由于SOM算法會丟失信息,因此設置補償層來補償丟失的信息;
S3.4、對步驟S3.2和S3.3產(chǎn)生的結果向量進行全局優(yōu)化和融合得到融合特征向量;
S4、使用SoftMax激活函數(shù)對融合特征進行分類,判斷該情緒是否屬于自殺情緒。
2.根據(jù)權利要求1所述的一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法,其特征在于,步驟S2中,對于獲取到的音頻,從語音內容、語調和語速三個維度進行不同的特征提取,并轉換為三組對應的特征文本;對于獲取到的圖像幀,抓取面部表情后,進行特征提取和降維,并經(jīng)過神經(jīng)網(wǎng)絡分類轉化為對應的表情文本描述。
3.根據(jù)權利要求2所述的一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法,其特征在于,步驟S2具體包括以下步驟:
S2.1、對音頻信號進行降噪處理后,根據(jù)語音內容、語調和語速依次將語音轉換為三個相應特征文本描述,再經(jīng)過BP神經(jīng)網(wǎng)絡轉化為音調符號,用于情緒識別;
其中,BP神經(jīng)網(wǎng)絡是最基礎的神經(jīng)網(wǎng)絡,包括輸入層、隱藏層和輸出層三層結構,其輸出結果采用前向傳播,誤差采用反向傳播方式進行;
S2.2、采用局部的方法進行臉部表情識別,即根據(jù)Kinect實時抓取的人臉圖像幀的信息,得到人臉的各個分割區(qū)域,對圖像進行切割、縮放、濾波、去噪、直方圖均衡化和灰度均衡化處理后,采用Gabor小波進行特征提取,使用線性判別分析法進行降維從而獲得相應的特征向量,最后經(jīng)過一個三層的神經(jīng)網(wǎng)絡的分類,得到人臉識別的結果即相應的特征文本描述;
其中,所述三層的神經(jīng)網(wǎng)絡的結構包括輸入層、隱藏層和輸出層;輸入層接收數(shù)據(jù),輸出層輸出數(shù)據(jù),隱藏層經(jīng)過‘激活’后傳遞信息。
4.根據(jù)權利要求1所述的一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法,其特征在于,步驟S3.3中,補償層由A層權重矩陣組成,A表示情緒類別的數(shù)量,且每層上所有節(jié)點都有各自的權重,計算公式如下:
ui=wi·μi+b;
ui表示第i層權重矩陣的輸出,wi表示第i層的權重矩陣,μi第i層的輸入,b表示偏置常量1;為獲得適當大小的補償值,在補償層后設置tanh函數(shù)使得補償值的大小在[-1,1]之間。
5.根據(jù)權利要求1所述的一種基于語音和微表情的多模態(tài)融合的自殺情緒感知方法,其特征在于,步驟S4中,使用SoftMax激活函數(shù)對融合特征向量進行分類,判斷該情緒是否屬于自殺情緒。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010764408.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法





