[發明專利]一種基于無監督域適應的無標簽視頻人臉識別方法在審
| 申請號: | 201710861667.4 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107506800A | 公開(公告)日: | 2017-12-22 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 適應 標簽 視頻 識別 方法 | ||
技術領域
本發明涉及人臉識別領域,尤其是涉及了一種基于無監督域適應的無標簽視頻人臉識別方法。
背景技術
人體最重要的生物特征之一就是人臉,它能反映很多重要的生物信息,如身份、性別、種族、年齡、表情等,因此,人臉識別是現今計算機視覺領域熱門的領域之一。人臉識別具有廣闊的實際應用,在人臉識別系統、醫學、電影廣告、計算機動畫、游戲、視頻會議以及可視電話、人機交互等領域都具有廣闊的應用前景。特別是在公共安全領域,人臉識別對公安刑偵、預防犯罪、公共安全防范、逃犯追捕等方面有著越來越大且難以忽視的作用。近年來,恐怖活動、暴力事件、暴力犯罪等嚴重威脅公共安全的時間頻繁出現,人臉識別能夠方便地對重點區域的進出人員進行控制,能夠對機場、火車站、小區等各個場合進行隱蔽監控等,這些都能有效保護公共安全。然而,人臉識別一般容易受到姿勢、照明或遮擋的影響,從而降低了識別的準確性。
本發明提出了一種基于無監督域適應的無標簽視頻人臉識別方法,先通過從面部數據集中提取辨別性信息來訓練視頻域適配網絡,稱為參考網絡,通過特征匹配提取信息,然后通過合成數據增強進行適應,定義損失函數,接著通過域對抗學習適應,通過正則化生成器縮小兩個域之間的差距,最后引導的特征級域適應,通過置信加權的用于面部識別的幀的適應度融合。本發明利用大規模未標記的視頻數據來減少視頻和圖像域之間的差距,同時保留大規模標記靜止圖像的辨別力,大大提高了視頻幀的質量,也提高了視頻臉部識別性能。
發明內容
針對識別的準確性低的問題,本發明的目的在于提供一種基于無監督域適應的無標簽視頻人臉識別方法,先通過從面部數據集中提取辨別性信息來訓練視頻域適配網絡,稱為參考網絡,通過特征匹配提取信息,然后通過合成數據增強進行適應,定義損失函數,接著通過域對抗學習適應,通過正則化生成器縮小兩個域之間的差距,最后引導的特征級域適應,通過置信加權的用于面部識別的幀的適應度融合。
為解決上述問題,本發明提供一種基于無監督域適應的無標簽視頻人臉識別方法,其主要內容包括:
(一)通過特征匹配來提取信息;
(二)通過合成數據增強進行適應;
(三)通過域對抗學習適應;
(四)鑒別引導的特征融合。
其中,所述的域適應,引入一系列域適應目標,這些目標允許視頻域適配網絡(VDNet)在中對大規模未標記的視頻進行訓練,同時利用中標記的網絡圖像監督。
其中,所述的通過特征匹配來提取信息,為了利用標簽的Web圖像,通過從標記的Web面部數據集預先訓練的面部識別引擎中提取辨別性信息來訓練VDNet,稱之為參考網絡(RFNet);通過匹配兩個網絡之間的特征表示實現提??;令φ(·):為VDNet的特征生成算子,ψ(·):為RFNet的特征生成算子;在圖像上定義特征匹配(FM)損失為:
FM損失函數允許VDNet保持一定程度的面部識別信息;實際上VDNet和RFNet之間使用了相同的網絡架構;使用RFNet初始化VDNet的網絡參數,并保持較高層的網絡參數不變,進一步保持從標記的Web面部圖像學習的辨別性信息。
其中,所述的通過合成數據增強進行適應,通過應用如線性運動模糊、圖像分辨率(比例)變化或視頻壓縮噪聲等變換來擴充數據,這是視頻質量下降的最典型的原因;通過特征恢復(FR)損失函數訓練VDNet,無需擴充數據就能“恢復”圖像的原始RFNet表示:
其中,B(·):是圖像變換的核心,是對B(·)分布的期望值;
利用來自圖像域的標記訓練樣本,也可以使用標準度量學習目標來學習將上述模糊內核定義的低質量圖像概括為辨別度量;采用N對損失函數,給定來自不同類別的N對實例和個體合成數據擴充Bi(·),N對損失函數定義如下:
N對損失函數可以作為具有綜合度量學習目標函數的一個例子,也可以用其它標準度量學習目標替代,例如對比損失或三元損失。
進一步地,所述的圖像變換,具有以下參數:
(1)線性運動模糊:在(5,15)中隨機選擇核心長度,并在(10,30)中選擇核心角度;
(2)縮放變化:重新縮放原始圖像大小的1/6的圖像;
(3)JPEG壓縮:質量參數隨機設置在(30,75)間;
對于每個噪聲過程,依次增加參數并應用于概率為0.5的圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710861667.4/2.html,轉載請聲明來源鉆瓜專利網。





