[發明專利]一種基于遷移層次網絡的人臉識別方法在審
| 申請號: | 201810413269.0 | 申請日: | 2018-05-03 |
| 公開(公告)號: | CN108596138A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 楊育彬;甘元柱;李瑮;朱瑞 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 層次網絡 人臉識別 訓練模型 遷移 人臉訓練數據 預處理操作 平移 人臉分類 人臉數據 隨機噪聲 相似程度 顏色增強 微調 網絡 學習 | ||
1.一種基于遷移層次網絡的人臉識別方法,其特征在于,包括如下步驟:
步驟1,選取預訓練模型;
步驟2,搭建層次網絡;
步驟3,對人臉訓練數據集進行預處理;
步驟4,確定微調的網絡層次結構;
步驟5,在人臉訓練數據集上進行重訓練操作,如果在人臉訓練數據集上的準確率不理想,則轉步驟4,否則得到訓練好的模型,執行步驟6;
步驟6,對于給定的圖片,采用與步驟3中相同的方式進行相應的預處理,使用步驟5得到的已訓練好的模型進行人臉識別,給出識別結果。
2.根據權利要求1所述的方法,其特征在于,步驟1所選取的預訓練模型為VGG-FACE模型。
3.根據權利要求2所述的方法,其特征在于,步驟2中,搭建的層次網絡為VGG-net卷積神經網絡,卷積層步長和補齊均設置為1,卷積層共分成五組,每一組之后接池化層,初始輸入大小為224×224,初始卷積核數目為64,卷積核大小全部為3×3,兩個卷積層作為第一組,第二組同樣是兩個卷積層,池化后卷積核數目加倍為128個,第三,四,五組均為三個卷積層,卷積核數目依次為256,512,512;池化層采用最大池化方式,池化層步長大小為2,每次池化后特征圖的尺寸減半,為了保證網絡的表達能力,將卷積核的數目增加一倍;全連接層將之前提取的特征再次進行非線性變換,全連接參數為4096-4096-1000,并接Softmax進行分類,使用步驟1的預訓練模型對搭建的層次網絡初始化。
4.根據權利要求3所述的方法,其特征在于,步驟3包括:使用以下一種或兩種以上組合數據增強變換來增加輸入數據的量:
旋轉、反射變換:隨機旋轉圖像一定角度,或者改變圖像內容的朝向;
翻轉變換:沿著水平或者垂直方向翻轉圖像;
縮放變換:將圖像放大或者縮小到搭建的層次網絡指定的輸入大小,即224×224;
平移變換:在圖像平面上對圖像以一定方式進行平移,具體包括:將圖像隨機向左或者向右,向上或者向下平移,向左或者向右平移的距離隨機在0~1/2圖像的長,向上或者向下平移的距離在0~1/2圖像的寬;
尺度變換:對圖像參照SIFT特征提取思想,利用指定的尺度因子對圖像濾波構造尺度空間,改變圖像內容的大小或模糊程度;
對比度變換:在圖像的HSV顏色空間,改變飽和度S和V亮度分量,保持色調H不變,對每個像素的S和V分量進行指數運算,指數因子在0.25到4之間,增加光照變化;
噪聲擾動:對圖像的每個像素RGB進行隨機擾動;
顏色變換:在人臉訓練數據集像素值的RGB顏色空間進行PCA主成分分析(PrincipalComponent Analysis,主成分分析),得到RGB空間的3個主方向向量,3個特征值,p1,p2,p3,λ1,λ2,λ3,p1,p2,p3代表人臉訓練數據集像素值的RGB顏色空間進行PCA主成分分析后得到RGB空間的3個主方向向量,λ1,λ2,λ3代表人臉訓練數據集像素值的RGB顏色空間進行PCA主成分分析后得到RGB空間的3個特征值,對每幅圖像的每個像素Ixy=[IRxy,IGxy,IBxy]T進行如下的變化:
[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中,IRxy指的RGB空間R空間(x,y)坐標位置的像素值,IGxy指的RGB空間G空間(x,y)坐標位置的像素值,IBxy指的RGB空間B空間(x,y)坐標位置的像素值,T表示矩陣形式的轉置,α1、α2、α3是滿足均值為0、方差為0.1的隨機變量,用[p1,p2,p3][α1λ1,α2λ2,α3λ3]T這個公式計算得到的值來代替[IRxy,IGxy,IBxy]T這個本來的值,達到顏色變換的作用。
5.根據權利要求4所述的方法,其特征在于,步驟4中,對步驟1選取預訓練模型的網絡結構需要根據人臉識別的難度進行裁剪和調整,選取相應的網絡層進行微調,得到新的網絡模型。
6.根據權利要求5所述的方法,其特征在于,步驟5包括:
步驟5-1,在步驟4得到的新的網絡模型基礎上,采用caffe的快速卷積方法,使用現有的人臉訓練數據集的數據,根據人臉訓練數據集上分類的損失函數值的變化調整網絡模型的學習率,并重新訓練,單個輸入的分類損失函數L(xs,ys)的計算公式為:
其中,K為分類種類的個數,xs表示輸入的單個樣本,ys表示該樣本的類別,取值范圍為1到K,表示ys類別為k時,取值為1,否則取值為0;C(xs)表示樣本xs輸入到網絡后的輸出結果;
最后的目的是最小化所有樣本的分類的損失函數和,以此來訓練新的網絡模型,公式如下:
其中,(xs,ys)~(Xs,Ys)表示(xs,ys)是從數據集(Xs,Ys)采樣得到的一個樣本,Xs表示樣本的集合,Ys表示樣本對應的類別標簽的集合,|Xs|表示總樣本的個數;
步驟5-2,最終的目的是最小化損失函數和,所以當損失函數不再下降的時候,需要降低網絡模型的學習率,以便讓損失函數繼續下降;
訓練網絡模型直到人臉訓練數據集上的結果變化不大為止,即前后兩次的結果相差不超過1%,則得到訓練好的模型,執行步驟6;如果準確率不理想,即前后兩次的結果相差超過1%,則轉步驟4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810413269.0/1.html,轉載請聲明來源鉆瓜專利網。





