[發明專利]一種基于局部和深度特征集合的目標分類方法在審
| 申請號: | 201711423291.5 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN108154183A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標分類 分類器 集合 深度特征 特征訓練 連接層 描述符 向量 輸入數據集 支持向量機 編碼策略 分類能力 分類性能 局部特征 特征變換 特征提取 最終決策 中間層 卷積 網絡 尺度 測試 分類 投票 優化 應用 | ||
1.一種基于局部和深度特征集合的目標分類方法,其特征在于,主要包括深度卷積特征提取(一);局部特征和編碼(二);分類器集合(三)。
2.基于權利要求書1所述的基于局部和深度特征集合的目標分類方法,其特征在于,從深度網絡的最后完全連接層中提取描述符和尺度不變特征變換(SIFT)描述符的費舍爾向量;對每個特征訓練一個支持向量機(SVM),對輸入數據集進行優化分類,然后進行投票并得出最終決策。
3.基于權利要求書1所述的深度卷積特征提取(一),其特征在于,深度卷積特征評估了三種流行的CNN架構:AlexNet、VGGNet和GoogleNet。
4.基于權利要求書3所述的AlexNet,其特征在于,AlexNet的架構由5個卷積層和3個全連接層組成;它引入了修正線性單元(ReLU)作為池中非線性的使用,并在訓練期間忽略神經元,從而減少過度擬合;合并層放置在第一、第二和第五卷積層之后。
5.基于權利要求書3所述的VGGNet,其特征在于,VGGNet的普及主要是由于在每個卷積層中使用了多個3×3濾波器;多個小卷積濾波器可以模擬大接收場的響應,從而提供更好的泛化能力并表示對象的復雜特征;VGGNet由13個16層的卷積層和3個全連接層組成;卷積層被分成5個組,每個組后面是最大匯集層。
6.基于權利要求書3所述的GoogleNet,其特征在于,GoogleNet將卷積塊與1×1卷積濾波器(稱為網絡中的網絡)的塊并行化,有效地利用了這些卷積特征的所有像素之間共享的非常少的參數。
7.基于權利要求書1所述的局部特征和編碼(二),其特征在于,基于補丁的圖像描述符,如SIFT和加速穩健特征(SURF),在圖像分類系統中顯示出巨大的潛力;在關鍵點檢測階段,選擇合適的特征尺度作為尺度σ的連續函數,通過與高斯核進行卷積,形成圖像的尺度空間;尺度是由拉普拉斯高斯濾波器的最大值決定的,可以用高斯差分算子來代替;關鍵點的極值點是使用3×3濾波器的鄰域算子估計的;進一步的過濾有助于擺脫非真實極值點、低對比度點和沿邊響應;為了使描述符旋轉不變,計算方向直方圖,并用128維特征向量描述最終關鍵點;圖像的細粒度信息是使用圖像簽名(視覺詞袋、局部特征聚合描述符、費舍爾向量)捕獲的。
8.基于權利要求書7所述的費舍爾向量,其特征在于,在實驗中,利用費舍爾向量作為編碼策略;給定一個似然函數p(X|λ),其中,λ表示參數,X的得分函數可以表示為:
梯度矢量可以使用任何鑒別分類器進行分類;要求對這樣的鑒別分類器中存在的內積項進行歸一化;費舍爾信息矩陣由下式給出:
歸一化的梯度向量由下式給出:
視覺詞匯表上的費舍爾核用高斯混合模型(GMM)表示。
9.基于權利要求書1所述的分類器集合(三),其特征在于,分類器集合包括訓練和測試;訓練包括深度集合、中間層集合和與深層集合的SIFT;
(1)深度集合:深層網絡是在最后一層使用相應的softmax分類器進行訓練的;用最后一層的SVM代替softmax,并用完全連通層的輸出重新訓練最后一層;將各種深層特征的組合稱為深度集合的獨立訓練SVM;這樣的網絡允許利用各種深層特征的互補性;
(2)中間層集合:
(a)單個中間層:為了評估中間層的表示能力,一旦網絡被訓練,則移除之后的層;各個中間層之后是由SVM組成的分類層;
(b)中間層融合:對每個深度網絡進行各種中間層特征融合的實驗;如果融合的各種中間層與深度集合相比可以形成一個更強大的特征,則可以評估這種組合;由于得到的特征向量具有非常高的維度,所以可以通過使用主成分分析(PCA)減小特征向量的大小來訓練SVM;
(3)與深層集合的SIFT:將SIFT的輸出與深度集合融合;使用費舍爾向量從圖像中量化SIFT特征。
10.基于權利要求書9所述的測試,其特征在于,在測試時間,各種體系結構的輸出類別是基于如下執行的多數投票預測的:
其中,φens(I)是輸入圖像I的輸出決策,Nk是輸出為第k個類別的SVM的數量,其由下式給出:
Nk=#{c|φc(I)=Lk} (5)
其中,φc是集合中第c個分類器的輸出或決策函數,Lk表示第k個類別的標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711423291.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于成對比較網絡的珠寶相似性度量方法
- 下一篇:人格類型確定方法及裝置





