[發明專利]一種基于視覺自注意力網絡的表情識別方法在審
| 申請號: | 202110210515.4 | 申請日: | 2021-02-25 |
| 公開(公告)號: | CN113033310A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 于乃功;柏德國 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 注意力 網絡 表情 識別 方法 | ||
1.一種基于視覺自注意力網絡的表情識別方法,其特征在于,該方法是按以下步驟實現的:
S1:數據準備,將訓練數據輸入到局部圖像生成模塊獲得局部圖像;
S2:把局部圖像輸入至視覺自注意力網絡進行訓練,得到訓練好的模型;視覺自注意力網絡由4層所設計的視覺自注意力層、全局平均池化層和全連接層結構疊加組成,其中每層的視覺自注意力層由三組并列的視覺特征提取模塊和自注意力特征融合機制構成,其連接關系是三組視覺特征提取模塊的輸出作為自注意力特征融合機制的輸入;
S3:將待識別的圖像經過預處理送入到訓練好的視覺自注意力網絡中進行識別,得到結果。
2.根據權利要求1中所述的一種基于視覺自注意力網絡的表情識別方法,其特征在于,所述S1的具體步驟包括:
S1.1數據的準備
所使用的數據由公開的表情數據集CK+,Oulu-CASIA,RAF-DB組成,前兩個數據集中用10折交叉驗證的方法取8折作為訓練數據,最后一個數據集用給出的訓練集作為訓練數據;
S1.2局部圖像生成模塊
所述的局部圖像生成模塊由人臉檢測方法和數據增強技術組成,人臉檢測方法使用的是Dlib庫中基于深度學習的人臉檢測方法,數據增強技術用來構建局部圖像,其所用到的數據增強技術包括對圖像進行水平翻轉,隨機旋轉,調節亮度、對比度、飽和度和色度,最后對圖像進行隨機裁切并進行標準化;
將上述局部圖像生成模塊中的流程運行三次,由此生成三個局部圖像。
3.根據權利要求1中所述的一種基于視覺自注意力網絡的表情識別方法,其特征在于,所述的三組并列的視覺特征提取模塊均由殘差結構、詢問向量(q)生成模塊、關鍵向量(k)生成模塊和值矩陣(V)生成模塊構成;
殘差結構由ResNet中的殘差模塊(Res Module),最大池化層(MP)組成,其連接關系為:Res Module、MP;
詢問向量(q)生成模塊由深度可分離卷積層(DSC1),全局平均池化層(GP1)構成,其連接關系依次為:DSC1、GP1;
關鍵向量(k)生成模塊由深度可分離卷積層(DSC2),全局平均池化層(GP2)構成,其連接關系依次為:DSC2、GP2;
值矩陣(V)生成模塊只由深度可分離卷積層(DSC3)組成;
視覺特征提取模塊的具體結構組成包含三個并列的子結構,其具體連接關系分別是(1)殘差結構、詢問向量生成模塊;(2)殘差結構、關鍵向量生成模塊;(3)殘差結構、值矩陣生成模塊;殘差結構的輸出同時是詢問向量生成模塊、關鍵向量生成模塊和值矩陣生成模塊的輸入;因此數據經過視覺特征提取模塊會有三個輸出,對應的分別是詢問向量、關鍵向量和值矩陣,由此可得三組視覺特征提取模塊一共輸出了三個詢問向量,三個關鍵向量和三個值矩陣。
4.根據權利要求1中所述的一種基于視覺自注意力網絡的表情識別方法,其特征在于,所述的自注意力特征融合機制為:
F=Softmax(QK)V
式中Q是三組視覺特征提取模塊輸出的三個詢問向量拼接而成;K是三組視覺特征提取模塊輸出的三個關鍵向量拼接而成;V是由三組視覺特征提取模塊輸出的三個值矩陣拼接而成;Softmax指的是Softmax函數。
5.根據權利要求1中所述的一種基于視覺自注意力網絡的表情識別方法,其特征在于,所述的視覺特征提取模塊中的各個組成部分其詳細參數如下:
殘差結構中的殘差模塊由兩個卷積層疊加組成,兩個卷積層的卷積核大小均為3×3,步長和padding均設置為1,每個卷積層后面均用Batch Normalization函數進行規范化,激活函數設置為Relu激活函數;最大池化層的窗口尺寸為2×2,步長為1;
詢問向量生成模塊、關鍵向量生成模塊和值矩陣生成模塊中的深度可分離卷積層均由相同結構的深度卷積和逐點卷積構成,其中深度卷積的輸出通道數均等于輸入通道數,其卷積核大小設置為3×3,卷積步長設置為1,卷積的組數設置為輸入通道數;逐點卷積中卷積核大小均設置為1×1,卷積步長設置為1;深度卷積后都用Batch Normalization函數進行規范化,激活函數為Relu6激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110210515.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:定位方法、裝置、計算機設備和存儲介質
- 下一篇:物聯網數據傳輸方法及傳輸系統





