[發(fā)明專利]一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 201710947264.1 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN107679501B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 馬文亞;劉昕;袁基睿;朱鵬飛;山世光 | 申請(專利權(quán))人: | 中科視拓(北京)科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100086 北京市海淀區(qū)科*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 標(biāo)簽 提純 深度 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法,其整體步驟為:構(gòu)建大規(guī)模的帶有標(biāo)簽噪聲的真實條件下的人臉數(shù)據(jù)集;使用小規(guī)模的干凈數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)得到深度人臉識別模型;使用訓(xùn)練得到的深度人臉識別模型對數(shù)據(jù)集進行提取特征操作;利用提純算法迭代地對數(shù)據(jù)集進行提純操作;根據(jù)提純后的數(shù)據(jù)集的測試結(jié)果獲得最終的提純后的研究用數(shù)據(jù)集。本發(fā)明可以利用大規(guī)模帶有標(biāo)簽噪聲的人臉數(shù)據(jù)集,進而利用無監(jiān)督的提純方法迭代地進行數(shù)據(jù)的自提純,然后將提純后的數(shù)據(jù)用于構(gòu)建大規(guī)模的數(shù)據(jù)集,從而在構(gòu)建了一個大規(guī)模數(shù)據(jù)集的基礎(chǔ)上可以訓(xùn)練得到具有理想精度的深度人臉識別模型進行相關(guān)的任務(wù)或應(yīng)用。
技術(shù)領(lǐng)域
本發(fā)明涉及一種學(xué)習(xí)方法,尤其涉及一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法。
背景技術(shù)
基于卷積神經(jīng)網(wǎng)絡(luò)的深度人臉識別方法已經(jīng)成為人臉識別領(lǐng)域的最有效的方法。但是這種方法嚴重依賴于大規(guī)模且標(biāo)簽精確的人臉數(shù)據(jù)集,而大規(guī)模的干凈數(shù)據(jù)是很難獲取的;同時,帶有標(biāo)簽噪聲的大規(guī)模數(shù)據(jù)集是比較方便獲取的,但是直接使用這種帶有標(biāo)簽噪聲的數(shù)據(jù)進行模型的訓(xùn)練并不能得到性能滿意的深度模型。因此,如何有效利用大規(guī)模的標(biāo)簽噪聲數(shù)據(jù)進行模型的訓(xùn)練是一個亟待解決的問題。
目前,基于深度學(xué)習(xí)的標(biāo)簽噪聲數(shù)據(jù)學(xué)習(xí)方法主要有:
1)標(biāo)簽噪聲魯棒算法:設(shè)計新型損失函數(shù)來對標(biāo)簽噪聲數(shù)據(jù)進行直接訓(xùn)練,從而直接利用大規(guī)模標(biāo)簽噪聲數(shù)據(jù)訓(xùn)練相關(guān)模型。該方法仍然會受到標(biāo)簽噪聲數(shù)據(jù)的影響,并且這種方法只是在防止噪聲標(biāo)簽過擬合時作用明顯,另外當(dāng)標(biāo)簽噪聲數(shù)據(jù)在整個訓(xùn)練集中所占比例較高時,算法的性能并不能達到理想要求。
2)基于半監(jiān)督的標(biāo)簽傳播算法:利用正確的標(biāo)簽去分類未標(biāo)注或者標(biāo)注錯誤的樣本以此來進行標(biāo)簽噪聲樣本的處理,進而將處理后的數(shù)據(jù)進行模型的訓(xùn)練。但是這種方法在實際應(yīng)用中需要計算成對樣本間的距離,因為算法具有平方復(fù)雜度所以無法將其用于處理大規(guī)模數(shù)據(jù);同時這種方法前期需要人工的標(biāo)注或者挑選,需要耗費一定的時間等資源,不具有快捷性和自動性。
發(fā)明內(nèi)容
為了解決上述技術(shù)所存在的不足之處,本發(fā)明提供了一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法。
為了解決以上技術(shù)問題,本發(fā)明采用的技術(shù)方案是:一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法,其整體步驟為:
步驟一、構(gòu)建大規(guī)模的帶有標(biāo)簽噪聲的真實條件下的人臉數(shù)據(jù)集;
步驟二、使用小規(guī)模的干凈數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)得到深度人臉識別模型;
步驟三、使用訓(xùn)練得到的深度人臉識別模型對數(shù)據(jù)集進行提取特征操作;
步驟四、利用提純算法迭代地對數(shù)據(jù)集進行提純操作;
步驟五、根據(jù)提純后的數(shù)據(jù)集的測試結(jié)果獲得最終的提純后的研究用數(shù)據(jù)集。
進一步的,步驟一中構(gòu)建人臉數(shù)據(jù)集的方法至少包括以下一種:
Ⅰ、使用爬取手段直接從互聯(lián)網(wǎng)上爬取數(shù)據(jù);
Ⅱ、利用相機或者其他拍攝設(shè)備獲取數(shù)據(jù);
Ⅲ、使用上述兩個方法直接或者間接獲取數(shù)據(jù)。
進一步的,步驟二中得到深度人臉識別模型的具體方法為:
a、對小規(guī)模的具有精確標(biāo)簽的人臉數(shù)據(jù)集進行五點對齊預(yù)處理,并且要保證數(shù)據(jù)的規(guī)模;
b、使用深度卷積神經(jīng)網(wǎng)絡(luò)進行模型的訓(xùn)練;
c、將訓(xùn)練得到的深度人臉識別模型在一些經(jīng)典測試集上進行測試,觀察測試所得正確率。
進一步的,步驟三中對數(shù)據(jù)集進行提取特征操作的具體方法為:
a、通過深度學(xué)習(xí)平臺或另外實現(xiàn)的方式提供提取特征時的前向算法;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科視拓(北京)科技有限公司,未經(jīng)中科視拓(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710947264.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





