[發(fā)明專利]一種基于無監(jiān)督域適應(yīng)的無標簽視頻人臉識別方法在審
| 申請?zhí)枺?/td> | 201710861667.4 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107506800A | 公開(公告)日: | 2017-12-22 |
| 發(fā)明(設(shè)計)人: | 夏春秋 | 申請(專利權(quán))人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 適應(yīng) 標簽 視頻 識別 方法 | ||
1.一種基于無監(jiān)督域適應(yīng)的無標簽視頻人臉識別方法,其特征在于,主要包括通過特征匹配來提取信息(一);通過合成數(shù)據(jù)增強進行適應(yīng)(二);通過域?qū)箤W(xué)習(xí)適應(yīng)(三);鑒別引導(dǎo)的特征融合(四)。
2.基于權(quán)利要求書1所述的域適應(yīng),其特征在于,引入一系列域適應(yīng)目標,這些目標允許視頻域適配網(wǎng)絡(luò)(VDNet)在中對大規(guī)模未標記的視頻進行訓(xùn)練,同時利用中標記的網(wǎng)絡(luò)圖像監(jiān)督。
3.基于權(quán)利要求書1所述的通過特征匹配來提取信息(一),其特征在于,為了利用標簽的Web圖像,通過從標記的Web面部數(shù)據(jù)集預(yù)先訓(xùn)練的面部識別引擎中提取辨別性信息來訓(xùn)練VDNet,稱之為參考網(wǎng)絡(luò)(RFNet);通過匹配兩個網(wǎng)絡(luò)之間的特征表示實現(xiàn)提取;令φ(·):為VDNet的特征生成算子,ψ(·):為RFNet的特征生成算子;在圖像上定義特征匹配(FM)損失為:
FM損失函數(shù)允許VDNet保持一定程度的面部識別信息;實際上VDNet和RFNet之間使用了相同的網(wǎng)絡(luò)架構(gòu);使用RFNet初始化VDNet的網(wǎng)絡(luò)參數(shù),并保持較高層的網(wǎng)絡(luò)參數(shù)不變,進一步保持從標記的Web面部圖像學(xué)習(xí)的辨別性信息。
4.基于權(quán)利要求書1所述的通過合成數(shù)據(jù)增強進行適應(yīng)(二),其特征在于,通過應(yīng)用如線性運動模糊、圖像分辨率(比例)變化或視頻壓縮噪聲等變換來擴充數(shù)據(jù),這是視頻質(zhì)量下降的最典型的原因;通過特征恢復(fù)(FR)損失函數(shù)訓(xùn)練VDNet,無需擴充數(shù)據(jù)就能“恢復(fù)”圖像的原始RFNet表示:
其中,B(·):是圖像變換的核心,是對B(·)分布的期望值;
利用來自圖像域的標記訓(xùn)練樣本,也可以使用標準度量學(xué)習(xí)目標來學(xué)習(xí)將上述模糊內(nèi)核定義的低質(zhì)量圖像概括為辨別度量;采用N對損失函數(shù),給定來自不同類別的N對實例和個體合成數(shù)據(jù)擴充Bi(·),N對損失函數(shù)定義如下:
N對損失函數(shù)可以作為具有綜合度量學(xué)習(xí)目標函數(shù)的一個例子,也可以用其它標準度量學(xué)習(xí)目標替代,例如對比損失或三元損失。
5.基于權(quán)利要求書4所述的圖像變換,其特征在于,具有以下參數(shù):
(1)線性運動模糊:在(5,15)中隨機選擇核心長度,并在(10,30)中選擇核心角度;
(2)縮放變化:重新縮放原始圖像大小的1/6的圖像;
(3)JPEG壓縮:質(zhì)量參數(shù)隨機設(shè)置在(30,75)間;
對于每個噪聲過程,依次增加參數(shù)并應(yīng)用于概率為0.5的圖像。
6.基于權(quán)利要求書1所述的通過域?qū)箤W(xué)習(xí)適應(yīng)(三),其特征在于,通過正則化生成器(即VDNet)來縮小兩個域之間的差距,其中,域被鑒別器捕獲;將兩個域和的對抗性損失函數(shù)定義為所有訓(xùn)練樣本的期望值:
是在特征表示之間的生成圖像和實際圖像,它是可取的。
7.基于權(quán)利要求書6所述的鑒別器,其特征在于,可以利用合成數(shù)據(jù)擴充來指導(dǎo)鑒別器,實現(xiàn)域之間的區(qū)分或者區(qū)分與已知合成變換相關(guān)的其他域的差異;這導(dǎo)致了兩種不同的鑒別器類型,一種是在圖像和合成圖像和視頻之間的雙向分類器之間,一種是在圖像與合成圖像之間具有的三向分類器視頻。
8.基于權(quán)利要求書7所述的雙向分類器,其特征在于,雙向softmax分類器作為來區(qū)分圖像域(y=1)和合成圖像和視頻(y=2)的域;雖然原始圖像來自圖像域,但合成退化圖像以及隨機視頻幀都被訓(xùn)練為屬于相同的域,如下所示:
通過包含用于第二類的合成圖像,兩類之間的對比變得明顯,所以可以容易地恢復(fù)與合成圖像變換相似的視頻域中的變換。
9.基于權(quán)利要求書7所述的三向分類器,其特征在于,與雙向網(wǎng)絡(luò)不同,三向網(wǎng)絡(luò)旨在將視頻幀與圖像區(qū)域區(qū)分開,而且還可以綜合降質(zhì)的圖像;
因此,它可能不會像雙向鑒別器那樣學(xué)習(xí)具有合成變換的強大的恢復(fù)能力的VDNet,而是旨在找到圖像或合成圖像和視頻域之間的其他變異因素;因此,
為目標函數(shù)。
10.基于權(quán)利要求書1所述的鑒別引導(dǎo)的特征融合(四),其特征在于,對于圖像,模糊圖像和視頻之間的域?qū)Ρ冗M行訓(xùn)練,鑒別器在測試時提供置信度分數(shù),每個幀均為“高質(zhì)量Web圖像”具體地,利用來自鑒別器的置信分數(shù),具有幀v的視頻V的聚合特征向量被表示為如下的特征向量的加權(quán)平均值:
Web圖像的這個目標域帶有大量標注的訓(xùn)練示例,用于訓(xùn)練辨別性的面部識別;因此,鑒別器起著雙重作用:引導(dǎo)的特征級域適應(yīng)和通過置信加權(quán)的用于面部識別的幀的適應(yīng)度融合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市唯特視科技有限公司,未經(jīng)深圳市唯特視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710861667.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





