[發明專利]一種基于光流輸入的遷移學習用于微表情識別的方法在審
| 申請號: | 202010666988.0 | 申請日: | 2020-07-13 |
| 公開(公告)號: | CN111950373A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 張立言;李星燃 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳國強 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輸入 遷移 學習 用于 表情 識別 方法 | ||
1.一種基于光流輸入的遷移學習用于微表情識別的方法,其特征在于:包括以下步驟:
步驟1:下載微表情數據集,對其進行對齊、歸一化;
步驟2:計算經步驟1處理后的微表情數據集中每個微表情視頻的光流估計,得到光流序列;
步驟3:使用基于面部表情的CNN模型進行從宏表情到微表情遷移學習,輸入為步驟2中得到的光流序列,輸出為時間空間特征,對網絡進行訓練后最終實現微表情識別功能。
2.根據權利要求1所述的基于光流輸入的遷移學習用于微表情識別的方法,其特征在于:所述步驟1中,對齊時使用活動形狀模型在微表情數據集中的每個微表情視頻的第一幀中檢測到68個面部標志,然后根據比對模板對每個微表情視頻的第一幀進行歸一化,每個微表情視頻中的后續幀都通過局部加權均值變換與第一幀進行比對;歸一化包括空間域和時間域歸一化,空間域歸一化將所有圖像都在人臉區域內被裁剪為96×112像素,時間域歸一化采用線性插值方法來獲取足夠數量的幀。
3.根據權利要求1或2所述的基于光流輸入的遷移學習用于微表情識別的方法,其特征在于:所述步驟1中,微表情數據集為CASMEII。
4.根據權利要求1所述的基于光流輸入的遷移學習用于微表情識別的方法,其特征在于:所述步驟2中,在一段微表情視頻中,設在點(x,y,t)的值是I(x,y,t),時隔δt到下一幀,像素移動(x+δx,y+δy,t+δt),強度為I(x+δx,y+δy,t+δt),基于小周期內亮度的不變性,得到:
I(x,y,t)=I(x+δx,y+δy,t+δt) (1)
其中,δx=uδt,δy=vδt,u(x,y)和v(x,y)為光流場中需要估計的水平分量和垂直分量,設微表情視頻中的像素值是其位置和時間的連續函數,根據泰勒級數展開,上述函數的右部表示為:
其中,ε是二階及以上時間δt的無偏估計量,當δt趨向于無窮小,讓式(2)兩邊除以時間δt和式(1),然后得到光流方程如下:
即,
5.根據權利要求1所述的基于光流輸入的遷移學習用于微表情識別的方法,其特征在于:所述步驟3中,設計一個從宏表情到微表情進行遷移學習的網絡,以實現微表情識別功能:
遷移學習的源標簽空間為:
目標標簽空間為:
其中,Positive={Happy},Negative={Afraid,Angry,Disgust,Sad,Fear},Surprise={Surprise},情緒不清的面部動作屬于Others;
網絡整體結構如下:
input->conv_1->max-pool_1->conv_2->max-pool_2->conv_3->max-pool_3->fc_1->fc_2->lstm_1->lstm_2->lstm_3->fc_3->spatial_temporal feature
其中,input為步驟2中得到的光流序列,conv_i{i=1,2,3}表示第i個卷積層,除conv1的卷積操作后都采用批歸一化;max-pool_i{i=1,2,3}表示第i個最大池化層;fc_i{i=1,2,3}表示第i個全連接層,從fc_2層提取空間特征表示;lstm_i{i=1,2,3}表示第i個LSTM層;spatial_temporal feature表示經過遷移學習最終得到的時空特征向量;每個卷積和全連接層的輸出都采用ReLU非線性層作為激活函數來約束輸出;在第一和第二完全連接層之后,有一個dropout層,來減輕對特征向量的過擬合;
學習空間特征表示的目標函數如下:
其中,表示第i個樣本的真值,如果k是正確的類,則為1,否則為0,表示在全連接層上計算的表情類別k的預測概率;目標項L1使具有不同表情類型的樣本在功能空間中可分離;
其中,fc,p,i表示c類第i個訓練樣本的空間特征表示向量,最后一層提取的第p個表情狀態;mc表示c類訓練樣本的均值特征向量;是在j≠c時,mc和mj之間最小距離的一半;目標項L2便同一表情類中的類內變化因受試者外觀等因素造成的影響減少;
學習時間特征表示的LSTM層的操作如下:
gin,t(l)=sigm(Win(l)[ht-1(l),ht(l-1)]+bin(l)),
gf,t(l)=sigm(Wf(l)[ht-1(l),ht(l-1)]+bf(l)),
go,t(l)=sigm(Wo(l)[ht-1(l),ht(l-1)]+bo(l)),
其中,W*(l)和b*(l)分別表示第l個LSTM層的權值和偏差,*為下標in、f、o、cell,分別表示input、forget、output、記憶單元;gin,t(l)表示輸入門,決定了當前時刻t網絡的輸入有多少保存到單元狀態;gf,t(l)表示遺忘門,決定了上一時刻的單元狀態有多少保存到當前時刻t;go,t(l)表示輸出門,決定單元狀態有多少輸出到LSTM的當前輸出值;cellt(l)表示當前時刻t輸入的單元狀態;ht(l)表示給定第t個輸入的第l個LSTM層的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010666988.0/1.html,轉載請聲明來源鉆瓜專利網。





