[發(fā)明專利]一種面向大數(shù)據(jù)處理的人臉識別訓練方法臉識別方法在審
| 申請?zhí)枺?/td> | 201611050385.8 | 申請日: | 2016-11-25 |
| 公開(公告)號: | CN106599798A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設計)人: | 徐海黎;沈標;劉熙;田強;韋勇 | 申請(專利權)人: | 南京藍泰交通設施有限責任公司;南通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京一格知識產(chǎn)權代理事務所(普通合伙)11316 | 代理人: | 滑春生 |
| 地址: | 210019 江蘇省南京市建鄴*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 數(shù)據(jù)處理 識別 訓練 方法 | ||
技術領域
本發(fā)明涉及人臉識別技術領域,特別是一種面向大數(shù)據(jù)處理的人臉識別訓練方法臉識別方法。
背景技術
人臉識別((Face Recognition,FR)起源于1980年,在視覺分析、視頻監(jiān)控、刑偵執(zhí)法、信息安全等領域被廣泛應用。近幾年,隨著移動終端數(shù)目的急劇增長和社交網(wǎng)絡的全面快速普及,人臉識別進入一個新時代并遇到新的挑戰(zhàn):1)由于移動設備的計算能力和存儲容量有限,因此需要更輕量級的人臉識別算法;2)由于移動設備和社交網(wǎng)絡上的人臉圖像幾乎都是在非可控的(即非實驗室)環(huán)境下獲得,導致可變參數(shù)非常多,因此需要大規(guī)模(通常超過百萬)的數(shù)據(jù)集來訓練模型,而這種訓練帶來了巨大的計算量。
雖然人臉識別已有30多年的研究歷史,但它在大規(guī)模數(shù)據(jù)集上的訓練問題還在研究中。現(xiàn)有工作通過采樣一部分數(shù)據(jù)集進行模型訓練,但會丟失部分人臉參數(shù),從而影響模型的精度。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠人臉識別精度更高的面向大數(shù)據(jù)處理的人臉識別訓練方法臉識別方法。
本發(fā)明采用的技術方案為:
一種面向大數(shù)據(jù)處理的人臉識別訓練方法臉識別方法,其創(chuàng)新點在于,依次經(jīng)過輸入圖像、人臉特征提取、對訓練集進行隨機洗牌、劃分訓練集、計算歸納及標準化特征差、對分布在不同節(jié)點的特征差進行線性分類、在測試集上評估FVB和生成ROC曲線,具體方法步驟如下:
1)輸入圖像:將人臉信息輸入FRGC-204數(shù)據(jù)庫中;
2)人臉特征提取:從FRGC-204數(shù)據(jù)庫中的原始訓練集與測試集中提取人臉特征,它首先根據(jù)人臉特征坐標點(Facial Landmarks)檢測出輸入圖像中的人臉,然后將這些人臉歸一化為標準大小的圖像,最后從這些標準化的人臉中提取特征,由于每張圖像的特征都是獨立提取的,因此整個提取過程可以并行處理;
3)對訓練集進行隨機洗牌:將FRGC-204數(shù)據(jù)庫中的原始訓練集進行隨機洗牌,以確保劃分到各個節(jié)點的數(shù)據(jù)均勻一致;
4)劃分訓練集:首先在分布式文件系統(tǒng)上將隨機洗牌后的訓練集按一定的策略劃分成數(shù)據(jù) 塊,然后將這些數(shù)據(jù)塊分別寫入每個節(jié)點的本地文件中,而且對訓練集中不同的樣本提供不同的劃分策略:(1)對負樣本對,將它們劃分成相同大小的數(shù)據(jù)塊,平均分配給每個節(jié)點;(2)對正樣本對,由于它們的數(shù)量遠小于負樣本對,因此采用Bootstrap重采樣方法將它們分配給每個節(jié)點,而且為了獲得更好的I/O吞吐率,數(shù)據(jù)劃分器采用并行批量寫的方法將數(shù)據(jù)塊寫入每個節(jié)點;
5)計算歸納及標準化特征差:首先在每個節(jié)點上,根據(jù)公式X=|vi-vj|p=(|vil-vjl|p,...,|vid-vjd|p)計算出其子訓練集中所有樣本對的特征差,并找出本地最大與最小特征差,然后通過全局歸約操作得出全局最大與最小特征差,并將它們廣播給每個節(jié)點,最后每個節(jié)點將其所有本地特征差歸一化為標準大小,而且每個節(jié)點的特征差計算和歸一化處理都可并行執(zhí)行,全局的歸約和廣播操作可由MPI編程模型實現(xiàn);
6)對分布在不同節(jié)點的特征差進行線性分類:對分布在不同節(jié)點的特征差進行高效的線性分類,解決單機無法存放整個數(shù)據(jù)集的問題;其次對算法中的熱路徑進行線程級和指令級優(yōu)化,以提高單機計算性能從而減少模型訓練時間;
7)在測試集上評估FVB和生成ROC曲線:在測試集上評估訓練模型的FVRat0.1%FAR,并自動生成ROC曲線。
本發(fā)明的有益效果如下:
本發(fā)明提出了一個大規(guī)模分布式人臉識別訓練方法,其創(chuàng)新之處:1)實現(xiàn)了一個分布式SVM訓練器,并在進程級、線程級和指令級上都作了高效的并行調(diào)優(yōu),同時該訓練器在幾百個節(jié)點上呈現(xiàn)良好的線性可擴展性;2)能支持包含幾千萬個樣本對和幾萬個特征參數(shù)的訓練集,并能利用它們提高模型精度;3)訓練了一個大小為3MB、使用時計算開銷為SMFlops、但人臉驗證率為92.2%的人臉模型,是目前同等大小的模型中精度最高的。
附圖說明
圖1為FRGC-204ROCI曲線隨著節(jié)點數(shù)增多的變化情況示意圖。
圖2為在不同節(jié)點數(shù)上訓練模型花費的總時間的情況示意圖。
圖3為在不同節(jié)點數(shù)上訓練模型的通信開銷百分比情況示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京藍泰交通設施有限責任公司;南通大學,未經(jīng)南京藍泰交通設施有限責任公司;南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611050385.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





