[發明專利]一種基于單階無錨檢測網絡的考勤方法有效
| 申請號: | 202010783356.2 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN111881876B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 李昕昕;黎永杰;陳丹陽;閆書明;張翔宇;蘭琳;管軍霖 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06Q10/10 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 單階無錨 檢測 網絡 考勤 方法 | ||
1.一種基于單階無錨檢測網絡的考勤方法,其特征在于,包括如下步驟:
1)人臉編碼過程:包括:
1-1)將圖片轉換為輸入張量:獲取將用于輸入的n張大小為112*112的圖片,將每張圖片轉化為RGB編碼,并表示為3*112*112的張量,將n個圖片張量堆疊,并拼接為n*3*112*112尺寸的張量,最后所得張量即為所用網絡的輸入,記為x;
1-2)采用用于人臉編碼的輕量級神經網絡特征提取模塊提取步驟1-1)最后所得張量作為輸入的圖片的特征,所述特征提取模塊的結構如表1所示,表1按行描述依次級聯的一系列運算操作及參數,其中每行的input列表示該行描述運算的輸入尺寸、Opretor列表示該行描述運算采用的運算方法的名稱、t列表示若采用該運算時轉置殘差瓶頸塊IBottleneck的擴張系數、c表示該行描述運算的輸出的通道數量、n表示該運算的重復次數、s表示該行操作中第一次卷積所采用的步長,Opretor列提及的運算均由一個或多個卷積運算組成,
表1:
特征提取包括:
1-2-1)主干網絡結果抽取:令表示表1中第i行所描述的運算、計算并保存結果
1-3)計算512維特征向量:將步驟1-2-1)所得結果中的分別通過步長為4卷積核大小為4x4、步長為2卷積核大小為2x2的深度可分離卷積層,得到結果并采用步長為1的1x1卷積對進行變換使變換后的結果通道數擴張至128得到采用逐點加法運算即得到融合特征圖集X,隨后采用7x7的深度卷積卷積層對融合特征圖X進行變換使變換后的結果通道數量擴張至512,此時每一通道的特征圖尺寸均為1x1,去掉多余的1x1維度,即可獲得512維特征向量
1-4)采用公開開源的大規模人臉數據集訓練由步驟1-1)至步驟1-3)所描述的流程級聯所構成的網絡,用于訓練的數據集為MS1Mv2數據集和CASIA-Webface數據集,獲取數據集后,利用用于計算圖片人臉關鍵點的神經網絡模型MTCNN獲取數據集中所有圖片的5個人臉關鍵點的坐標,通過仿射變換使得圖片中人臉的關鍵點與參考關鍵點坐標對齊,五個參考關鍵點的坐標依次為:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655),所有坐標均以圖片左上角為坐標系原點,用經過人臉對齊變換后的圖片替換數據集中的原始圖片,訓練包括如下步驟:
1-4-1)制作數據集的訓練標簽:用1到N的整數表示表示數據集中的N個類別;
1-4-2)從數據集中不重復的抽取512張圖片,輸入網絡得到512個512維特征向量,用512*512大小的矩陣表示,記為按抽取順序將各圖片的整數標簽拼接為512大小的向量C;
1-4-3)增加角裕度m并對特征進行放縮:構建一個512*N大小的權重矩陣記為采用公式得到在余弦空間中的表示θ,對每一θi∈θ計算Li=s*cos(θi+m)得到放縮后的特征向量L,其中m,s為超參數,此處選擇m=0.5,s=128;
1-4-4)采用交叉熵損失函數CrossEntropyLoss計算損失:將輸入圖片對應的整數標簽轉化為N維的獨熱向量,堆疊并拼接得到獨熱向量的到大小為512*N的01矩陣損失的計算公式為公式(1):
公式(1)所得結果l為網絡的損失;
1-4-5)反向傳播并利用帶動量的隨機梯度優化器更新模型權重,優化器的學習率設置為0.1,權重衰減率設置為5e-4;
2)人臉檢測過程:包括:
2-1)獲取輸入:輸入為n*3*H*W的張量,用于表示n張RGB編碼大小H*W的圖片,將輸入的張量記為x;
2-2)采用Resnet50網絡的特征提取模塊對輸入進行變換并獲取特征圖,Resnet50網絡由4個階段構成,每個階段結束后的輸出記為將x輸入Resnet50網絡,保存結果
2-3)采用FPN對特征圖進行變換,包含以下步驟:
2-3-1)采用核大小為1*1的卷積層對進行變換得到
2-3-2)采用雙線性插值法使的特征圖大小擴大為原來的兩倍,將結果記為
2-3-3)計算并輸出其中表示卷積運算;
2-3-4)計算位置信息,包括:
2-4-1)構建四個并行的卷積層F1,F2,F3,F4,其中各卷積核大小均為3*3,卷積層的輸出通道數依次為1,2,10,2;
2-4-2)取得步驟2-3)中的輸出并記為x,計算F1(x),F2(x),F3(x),F4(x),并將結果記為x1,x2,x3,x4;
2-4-3)尋找x1中值大于0.5的點,并記錄所有滿足該條件的點的在張量x1中的N個坐標,所得N個坐標即檢測出的N個人臉檢測框的中心點在x1中的坐標;
2-4-4)x2中兩個通道在步驟2-4-3)所得坐標處的值分別表示檢測框的高和寬,x3的10個通道對應處的值依次表示5個檢測點的坐標,x4的兩個值表示檢測框中心點在原圖上的修正值;
2-4-5)將坐標信息還原至輸入張量的參考系中:設所獲得的中心點坐標為(a,b),獲得的高、寬分別為H、W,獲得的關鍵點坐標為(e1,f1),(e2,f2),...,(e3,f3),獲得的修正值為g,h,則在輸入張量的參考系中,檢測框中心為(4a+g,4b+h)、檢測框高寬為人臉關鍵點坐標為(4ei,4fj),i=1,2...,5;
2-5)將檢測框用角點表示,角點為矩形的左下角坐標及右下角坐標組成的二元組;
2-6)返回結果:返回N個六元組,每個六元組包括一組角點及五個關鍵點的坐標;
3)統計考勤:包括:
3-1)計算圖片中人臉的編碼向量,包括:
3-1-1)獲取輸入圖片:獲取用于輸入的1張大小為H*W的圖片,計算小于1的最大的放縮倍數α,使得圖片的最長邊在放縮后小于1600;
3-1-2)將圖片轉換為輸入張量:將圖片大小放縮為原來的α倍,將圖片轉化為RGB編碼,并表示為3*αH*αW的張量,新增一個維度,使張量的形狀變為1*3*αH*αW,將所得張量記為x;
3-1-3)把x作為上文描述的人臉檢測過程的輸入,計算得到N組包含檢測框角點的坐標及關鍵點坐標的信息;
3-1-4)依據放縮倍數α計算步驟3-1-3)所得坐標在原圖中的坐標值,并將檢測框的角點的坐標描述的檢測框內的圖像保存,計算該檢測框對應的人臉關鍵點以檢測框的左上角為原點的坐標值;
3-1-5)通過仿射變換使步驟3-1-4)所得每一張圖片中位于人臉關鍵點坐標處的像素與參考關鍵點坐標對齊,五個參考關鍵點的坐標依次為:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655);
3-1-6)保存變換后的圖片中坐標(0,0)與(112,112)為角點所描述的矩形區域的像素值大小為3*112*112的張量;
3-1-7)將步驟3-1-6)所得的N個張量拼接得到大小為N*3*112*112的張量M;
3-1-8)將M作為人臉編碼過程的輸入并計算,得到N個512維的人臉編碼向量;
3-2)構建身份數據庫,包括:
3-2-1)采集考勤目標直視鏡頭的五張照片,照片中只包含考勤目標的面部,不能存在多個人臉,照片中屬于的人臉像素占比應超過50%;
3-2-2)將收集的五張圖片依次作為步驟3-1)過程的輸入并計算得到5個512維向量;
3-2-3)保存步驟3-2-2)所得5個向量,所得5個向量即為該考勤目標的參考向量;
3-3)完成考勤,包括:
3-3-1)采集畫面內容覆蓋完整考勤現場場地的一張照片,場地內包含人臉的數量不超過150,照片中能檢測出身份的最小人臉大小為112*112像素;
3-3-2)將照片輸入步驟3-1)的過程并計算,得到K個人臉編碼向量,用υi表示所得的第i個編碼向量;
3-3-3)對于每個υi在數據庫中查找與其余弦相似度最大一個向量ωi;
3-3-4)對于每個υi若其與ωi的余弦值大于閾值σ,則υi所表示的人臉身份與ωi一致,否則認為υi所表示的人臉身份在數據庫中不存在,閾值σ=0.95;
3-3-5)返回得到的人臉身份,并返回到場人數K。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010783356.2/1.html,轉載請聲明來源鉆瓜專利網。





