[發(fā)明專利]基于深度學習編碼模型的人員再識別方法在審
| 申請?zhí)枺?/td> | 201710080498.0 | 申請日: | 2017-02-15 |
| 公開(公告)號: | CN106778921A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設計)人: | 趙永威;譚佩耀;胡畏;李博 | 申請(專利權)人: | 張烜 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710000 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 編碼 模型 人員 識別 方法 | ||
技術領域
本發(fā)明涉及一種基于深度學習編碼模型的人員再識別方法。
背景技術
近年來,隨著視頻監(jiān)控系統(tǒng)大量建設與應用,使其在打擊犯罪、維護穩(wěn)定實踐中發(fā)揮著越來越重要的作用。當前大多數(shù)監(jiān)控系統(tǒng)采用實時拍攝和人工監(jiān)視的形式,這要求監(jiān)控人員時刻注意監(jiān)控畫面,仔細分辨視頻中的事件,而這顯然是不現(xiàn)實的,何況人工查看的方式存在大量的疏漏和主觀誤差。考慮到日益增長的監(jiān)控視頻規(guī)模,這種方式所需的人力成本也將難以承受,而且效率低下。因此,急需方便快捷的方法來替代現(xiàn)有的人工主導的監(jiān)控體系。強烈的現(xiàn)實需求和計算機相關技術的進步,催生了人員再識別技術(Person Re-identification),該技術也成為了當前視頻智能監(jiān)控領域中一個極具有挑戰(zhàn)性的問題,其主要任務是完成跨攝像頭的行人搜索與識別。人員再識別技術主要是通過視覺比對的方式將視場不重疊的多個攝像機所拍攝到的屬于同一個行人的圖像或者視頻片段關聯(lián)起來的技術。
在整個人員再識別系統(tǒng)中,特征提取和分類器設計是兩個基本也是關鍵的步驟,目前一些學者對行人識別和分類的研究主要集中在這兩個方面,且取得了很大的成果。有人引入了利用HOG進行行人檢測。有文獻把紋理邊緣描述子(Texture-Edge Descriptor,TED)特征應用于視頻序列中的行人檢測,此特征包括紋理和垂直方向的邊緣信息,適用于室內(nèi)外的不同環(huán)境。另外,行人識別中常用的特征還有PCA特征、Harr特征、SIFT特征和積分通道特征等。在機器學習中常用泛化能力較好的分類器進行行人分類識別和檢測,如支持向量機(Support Vector Machine,SVM)分類器、多核SVM(MultiKernel SVM,MKSVM)分類器、AdaBoost分類器等?;跓o監(jiān)督的深度學習(Deep Learning)是關于自動學習要建模的數(shù)據(jù)的潛在分布的多層表達算法,故能自動提取分類需要的低層次或者高層次特征。因此,它用數(shù)據(jù)學習特征,避免了大量的手工設計數(shù)據(jù),在使用中非常方便而且效果也更好。深度學習結合了監(jiān)督學習和無監(jiān)督學習的優(yōu)點,因此既強調(diào)了網(wǎng)絡結構的深度又突出了特征表達的能力。此外,詞袋方法(Bag of Words,BoW)是基于視覺信息的識別方法中利用目標的外觀表象信息的一種常用的目標建模方法。它的核心思想是利用一組視覺單詞表示目標圖像。近年來,詞袋模型在許多目標和場景的圖像數(shù)據(jù)集上取得了良好的分類識別性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種基于深度學習編碼模型的人員再識別方法,有效地解決了傳統(tǒng)特征提取技術因監(jiān)控視頻質(zhì)量較差,視角和光照差異引起效果不好、魯棒性不強的問題及傳統(tǒng)分類器的高運算復雜度,有效地提高了人員目標檢測的準確度和特征表達的性能并能高效地識別出監(jiān)控視頻中的行人。
本發(fā)明的目的是通過以下技術方案實現(xiàn)的:
一種基于深度學習編碼模型的人員再識別方法,包括以下步驟:
首先,利用非監(jiān)督RBM網(wǎng)絡采用自底向上的方式對初始SIFT特征進行編碼得到視覺詞典;
其次,采用自頂向下的方式為整個網(wǎng)絡參數(shù)進行有監(jiān)督微調(diào);
然后,就是利用誤差反向傳播對初始視覺詞典進行有監(jiān)督微調(diào),獲取視頻圖像新的圖像表達方式,也就是圖像深度學習表示向量;
最后,利用圖像深度學習表示向量訓練線性SVM分類器用以對行人進行分類識別。
進一步地,所述的基于深度學習編碼模型的人員再識別方法,首先,提取訓練圖像庫的SIFT特征;其次,結合SIFT特征的空間信息,將鄰近的SIFT特征作為RBM的輸入,通過CD快速算法訓練RBM,得到隱藏層特征;然后鄰近的隱藏層特征作為下一層RBM的輸入,得到輸出詞典;ω1和ω2作為RBM的連接權重,RBM具有一個顯見層,一個隱層,但是在RBM中,同層的神經(jīng)元之間是無連接的,這樣學習使得過程更簡單。
在網(wǎng)絡的訓練過程中,RBM的隱層與顯層之間是通過條件概率分布相關聯(lián)的,顯層和隱層的條件概率為:
其中,xi,zj分別代表特征層和編碼層,也就是RBM中的顯層與隱層。ωij為特征層xi與編碼層之間的連接權重系數(shù),給定權重系數(shù)矩陣ω和隱層偏置向量b,輸入層特征x就可以編碼為視覺詞典z,相應的給出ω和顯層偏置矩陣c就可以由視覺詞典z重構出特征x。對于RBM中一組給定的輸入層和編碼層(x,z),其能量函數(shù)可計算如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張烜,未經(jīng)張烜許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710080498.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種輸電線路檢修設備
- 下一篇:一種適合高維特征的鞋印新類別檢測方法





