[發(fā)明專利]一種基于全局注意力的人臉特征點定位方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010886980.5 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112084911B | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計)人: | 張卡;何佳;戴亮亮;尼秀明 | 申請(專利權(quán))人: | 安徽清新互聯(lián)信息科技有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/82;G06V10/80;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 合肥天明專利事務所(普通合伙) 34115 | 代理人: | 苗娟 |
| 地址: | 230088 安徽省合肥市高新區(qū)創(chuàng)新*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 全局 注意力 特征 定位 方法 系統(tǒng) | ||
1.一種基于全局注意力的人臉特征點定位方法,其特征在于:
獲取人臉局部圖像;
把獲取到的圖像輸入事先訓練好的基于全局注意力的人臉特征點定位模型,對于輸入的人臉局部圖像,經(jīng)過基于全局注意力的人臉特征點定位模型前向運算后,直接輸出人臉特征點位置;
其中,
所述基于全局注意力的人臉特征點定位模型的網(wǎng)絡(luò)結(jié)構(gòu)包括:
conv0層是一個核尺寸為7×7,跨度為2×2的卷積層;
maxpool0層是一個核尺寸為2×2,跨度為2×2的最大值池化層;
conv0層和maxpool0層共同組成了一個特征圖分辨率快速下降網(wǎng)絡(luò);
resblock0、resblock1、resblock2、resblock3均是resnet網(wǎng)絡(luò)的resblock殘差模塊;
GFM0、GFM1、GFM2、GFM3均是全局注意力融合模塊;
ave-pool層是一個全局均值池化層;fc層是一個輸出特征為2xN維的全連接層,N表示人臉特征點的個數(shù);
所述全局注意力融合模塊的具體網(wǎng)絡(luò)結(jié)構(gòu)包括:
gfmconv0、gfmconv1、gfmconv2均是核尺寸為1×1,跨度為1×1的卷積層,reshape0、reshape1、reshape2、reshape3均是特征圖尺寸變換層,其作用是調(diào)整輸入特征圖尺寸以滿足后續(xù)特征層運算的需要;
globalavepool0是一個基于特征圖通道維度的全局均值池化層,globalmaxpool0是一個基于特征圖通道維度的全局最大值池化層;globalavepool0層的輸出特征圖和globalmaxpool0層的輸出特征圖按通道維度進行拼接;gfmconv是一個核尺寸為7×7,跨度為1×1的卷積層,用于提取輸入特征圖上各個像素位置的重要程度權(quán)值;
sigmod層是sigmod類型的激活函數(shù);scale層是按像素加權(quán)層,其作用是對輸入特征圖按照像素位置進行逐個加權(quán),加權(quán)計算過程如公式(1),globalavepool0、globalmaxpool0、gfmconv、sigmod、scale共同組成了一個空間注意力機制模塊;softmax層作用是按照輸入特征圖的第2維度進行softmax類型的激活操作,以獲取輸入特征向量的概率分布值;
matmul0、matmul1均是特征圖相乘運算層,遵循通用的矩陣相乘法則;matsum是特征圖相加運算層,用于把兩個輸入特征圖按對應元素相加合并成一個輸出特征圖;
Oc(x,y)=w(x,y)*Ic(x,y) (1)
其中,Oc(x,y)表示輸出加權(quán)特征圖的第c個通道(x,y)位置處的數(shù)值,w(x,y)表示輸入特征圖的(x,y)位置處的重要程度權(quán)重值,Ic(x,y)表示輸入特征圖的第c個通道第(x,y)位置處的數(shù)值;
輸入特征圖分別作為gfmconv0層、gfmconv1層、globalavepool0層、scale層、matsum層的輸入,gfmconv0層的輸出作為reshape0層的輸入,gfmconv1層的輸出作為reshape1層的輸入,reshape0層的輸出和reshape1層的輸出均作為matmul0層的輸入,matmul0層的輸出作為softmax層的輸入,globalavepool0層的輸出作為globalavepool1層的輸入,globalavepool1層的輸出作為gfmconv層的輸入,gfmconv層的輸出作為sigmod層的輸入,sigmod層的輸出和輸入特征圖均作為scale層的輸入,scale層的輸出作為reshape2層的輸入,reshape2層的輸出和softmax層的輸出均作為matmul1的輸入,matmul1的輸出作為reshape3層的輸入,reshape3層的輸出作為gfmconv2層的輸入,gfmconv2層的輸出和輸入特征圖均作為matsum的輸入,matsum層的輸出就是輸出特征圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽清新互聯(lián)信息科技有限公司,未經(jīng)安徽清新互聯(lián)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010886980.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





