[發明專利]基于增強CNN和跨層LSTM的表情識別系統與方法在審
| 申請號: | 202010324539.8 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111523461A | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 陳瑞;童瑩;齊宇霄;陳樂;曹雪虹 | 申請(專利權)人: | 南京工程學院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京睿之博知識產權代理有限公司 32296 | 代理人: | 楊雷 |
| 地址: | 211167 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 增強 cnn lstm 表情 識別 系統 方法 | ||
1.一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,包括特征增強CNN模塊、跨層LSTM模塊和全連接層;其中,視頻序列輸入特征增強CNN模塊中,特征增強CNN模塊用于獲取視頻序列的表情空間信息,特征增強CNN模塊與跨層LSTM模塊級聯進行端到端訓練,特征增強CNN模塊輸出的特征向量輸入到跨層LSTM模塊,跨層LSTM模塊用于捕獲視頻序列的表情時間信息,跨層LSTM模塊輸出的特征向量輸入到全連接層,全連接層將輸入的特征向量映射到樣本標記空間中實現表情分類,全連接層輸出表情分類結果;
所述特征增強CNN模塊包括骨干CNN網絡和特征增強支路,其中,在骨干CNN網絡的中間層引出一條特征增強支路,并將特征增強支路的輸出與骨干CNN網絡的輸出相融合;
所述跨層LSTM模塊包括至少兩層級聯的LSTM網絡,其中,特征增強CNN模塊的輸出輸入到第一層LSTM網絡,同時,特征增強CNN模塊的輸出跨接到后層LSTM網絡的輸入端。
2.根據權利要求1所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述特征增強CNN模塊的特征增強支路包括:若干層卷積層、批量歸一化層和一層扁平層,其中,第一層卷積層的輸入連接到骨干CNN網絡的中間層,卷積層的輸出連接到批量歸一化層的輸入,由若干卷積層和批量歸一化層的組合級聯后,最后一層批量歸一化層的輸出連接到扁平層的輸入,扁平層的輸出連接到骨干CNN網絡的全連接層的輸出。
3.根據權利要求2所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述特征增強CNN模塊的骨干CNN網絡采用VGG-16網絡。
4.根據權利要求3所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述特征增強支路包括兩層卷積層,第一層卷積層采用7×7大小的卷積核,第二層卷積層采用1×1大小的卷積核。
5.根據權利要求4所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述特征增強支路的輸出連接到骨干CNN網絡的第一層全連接層的輸出。
6.根據權利要求1所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述跨層LSTM模塊包括兩層級聯的LSTM網絡,其中,特征增強CNN模塊的輸出輸入到第一層LSTM網絡,同時特征增強CNN模塊的輸出還跨接到第二層LSTM網絡的輸入端。
7.根據權利要求6所述的一種基于增強CNN和跨層LSTM的表情識別系統,其特征在于,所述兩層LSTM網絡輸出的特征向量的維度均為2048。
8.根據權利要求1至7任一所述的一種基于增強CNN和跨層LSTM的表情識別系統的識別方法,其特征在于,包括如下步驟:
步驟A、對人臉表情視頻進行人臉檢測,截取人臉ROI區域,去除背景干擾;
步驟B、將預處理后的人臉表情視頻以n幀為一組劃分成若干視頻序列;
步驟C、將每組視頻序列順序輸入所述基于增強CNN和跨層LSTM的表情識別系統,經全連接層和激活函數計算得到該組視頻序列屬于各類表情的概率值;
步驟D、將各組視頻序列的屬于同一表情的概率值平均,最大平均概率值對應的表情類別即為該視頻的表情類別標簽。
9.根據權利要求8所述的一種基于增強CNN和跨層LSTM的表情識別系統的識別方法,其特征在于,所述步驟B中,n小于或等于人臉表情視頻長度的1/2,相鄰的視頻序列之間有n/2幀圖像重疊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工程學院,未經南京工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010324539.8/1.html,轉載請聲明來源鉆瓜專利網。





