[發明專利]一種基于膠囊-長短時記憶神經網絡的視頻表情識別方法有效
| 申請號: | 202011384713.4 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112487989B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 劉思葦;舒坤賢 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/25;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 短時記憶 神經網絡 視頻 表情 識別 方法 | ||
1.基于膠囊-長短時記憶神經網絡的視頻表情識別方法,其特征在于,具體包括以下步驟:
將包括有人臉的視頻轉換為視頻幀;
檢測視頻幀中的人臉圖像,并對人臉圖像進行預處理,具體包括:
對視頻幀進行人臉檢測,截取人臉ROI區域,并進行尺寸歸一化以及灰度化;
采用MTCNN算法檢測出視頻幀中的人臉并對視頻幀中的人臉進行定位,將檢測到的人臉裁剪為固定尺寸的大小,并做灰度化處理;
每個視頻中的視頻幀分別選取固定幀作為一組視頻序列,完成人臉圖像的提取以及預處理;
構建膠囊網絡,利用膠囊網絡編碼器提取人臉圖像的特征并利用膠囊網絡解碼器進行圖片的重構;具體包括:
膠囊網絡使用三層卷積層、卷積膠囊層和數字膠囊層作為膠囊網絡的編碼器,使用四層反卷積層作為數字膠囊的解碼器,通過卷積層提取圖片的特征并將經過最后一個卷積操作后的特征圖轉換為原始的膠囊,以供動態路由算法的使用,將膠囊經過動態路由算法進行迭代,并在最后一維進行疊加,數字膠囊層采用每個膠囊向量的長度代表每個表情類別的概率,并用于計算分類損失;編碼器用來優化網絡,對輸出概率最高類別的圖像進行重構,重構的圖像與原始圖像的歐氏距離進行對比,計算重建損失;
動態路由算法用于根據原始的膠囊獲取高層的膠囊,包括:
其中,sj為高層的膠囊,為底層的膠囊,wij為權值參數Wij為權值參數;cij為耦合系數,高層的膠囊與底層的膠囊都有一個耦合系數cij,cij系數之和為1,其系數表示為:
cij=softmax(b'ij);
其中,b'ij為代表更新后的值,bij為更新前的值,其初始為零值;vj為高層膠囊的向量;
編碼器的損失函數表示為:
Lc=Tc max(0,m+-‖vc‖)2+λ(1-Tc)max(0,‖vc‖-m-)2;
其中,Tc表示為表情類別c是否存在,當存在時其值為1,不存在為0;m+、m-分別為上邊界和下邊界;||Vc||表示為膠囊的模長,即表情類別c的概率;
解碼器的損失函數表示為:
其中,n代表像素點數,ri為第i個像素點經過基于Capsule的人臉表情識別網絡和解碼器最后得到的重構值;ai為第i個像素點的真實值;
構建長短時記憶神經網絡,將膠囊網絡編碼器的輸出作為長短時記憶神經網絡的輸入;構建長短時記憶神經網絡時,將輸入向量和該向量的實際標簽做交叉熵,將向量中所有元素的交叉熵的平均值作為長短時記憶神經網絡的損失函數,該交叉熵表示為:
其中,yi'為實際的表情類別標簽;yi為樣本i預測的表情概率;
將長短時記憶神經網絡輸出中最大概率值對應的表情分類作為該序列的標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011384713.4/1.html,轉載請聲明來源鉆瓜專利網。





