[發明專利]一種數據識別方法及裝置有效

申請號：	201210362300.5	申請日：	2012-09-25
公開（公告）號：	CN103678419A	公開（公告）日：	2014-03-26
發明（設計）人：	李建強;劉春辰	申請（專利權）人：	日電(中國)有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	孔凡紅
地址：	100191 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及數據處理技術，尤其涉及一種數據識別方法及裝置。

背景技術

目前，現實和虛擬世界的數據產生速度越來越大，對數據進行自動識別會便于用戶對數據的查找和使用，因此，很多應用或系統在獲得新的數據時，需要通過對已有數據的識別方式，對所獲得的數據進行數據識別。

目前進行數據識別的方法主要為：先從標注數據中選取相應訓練數據由識別器進行學習，在獲得新的數據時，即可使用學習后的識別器對該數據進行數據識別。

在進行識別器的學習時，和本專利最相關的技術包括大規模機器學習以及集成學習，下面分別對這兩種學習方式進行具體說明：

大規模機器學習是指能夠利用大規模數據來監督識別器學習以解決大數據分析基本問題的理論或方法，大數據（大規模數據，通常至少包括10W標注數據樣本）概念的出現使很多只關心識別精度的傳統的機器學習方法不再適用。

集成學習是通過利用不同的訓練標注數據集合或者不同的特征集合訓練得到多個識別器，在應用過程中這多個識別器以某種組合策略，比如投票，來解決某個識別問題。集成學習主要用來改善單個識別器的識別或預測等的性能精度。這種機器學習范式相對于單個識別器的學習算法來說，更容易擴展到大規模數據的學習任務。比較有影響的集成學習方法包括boosting（增強學習方法），bagging（基于可放回采樣的學習方法）等。

集成學習方法可以使得識別精度較高，其主要原因是它能夠通過群體決策的方式來克服單個識別器可能犯得一些識別錯誤，而這主要歸功于多個識別器的差異性。因此，要實現多個弱識別器的組合以實現強識別器，需要不同的個體識別器在不同的識別任務中需要犯不同的錯誤，以造成這種差異性。

基于不同的訓練集合，不同的識別器參數，或者不同的特征集合而獲得的多個識別器模型需要以某種策略組合起來使用來最終決定某個測試實例的最終識別結果，這種群體決策的策略就是識別器組合。

集成學習方法具有對于大規模數據上的機器學習具有很強的可擴展性，但如果直接將他們應用到大規模數據學習問題中，由于差異性不明顯，會造成最終的數據挖掘精度不是很高，不能取得理想的效果。雖然實現了大規模數據學習，但不能充分體現大規模數據學習的優勢。

目前，可以通過重采樣技術和劃分子集的方式，使得集成學習方法能夠應用到大規模學習中去，可是，不同的識別器通過不同的采樣技術在大數據中進行采樣，能夠實現所訓練的識別器的差異性，但由于只有部分的訓練數據被采樣并用來識別器的構建，所以標注樣本中蘊含的知識并沒有都用于識別器的訓練。而直接將整個標注數據集分成多個子集，這種隨機的標注數據集拆分的方法不能保證不同子標注集合之間的差異性，從而不能保證多個識別器之間差異性。

發明內容

本發明實施例提供一種數據識別方法及裝置，以提高大數據識別的精確度。

一種數據識別方法，包括：

分別確定多個識別器對待識別數據進行數據識別的識別結果，所述多個識別器為分別通過根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成的多個數據子集進行訓練形成的識別器；

根據各個識別結果確定該待識別數據的最終識別結果。

一種數據識別裝置，包括：

第一確定單元，用于分別確定多個識別器對待識別數據進行數據識別的識別結果，所述多個識別器為分別通過根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成的多個數據子集進行訓練形成的識別器；

第二確定單元，用于根據各個識別結果確定該待識別數據的最終識別結果。

本發明實施例提供一種數據識別方法及裝置，根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成的多個數據子集，使得各識別器分別根據各數據子集進行訓練，保證了各個識別器的差異性，因此，在對待識別數據進行數據識別時，獲得訓練后的識別器給出的識別結果，再根據各個識別結果確定該待識別數據的最終識別結果，提高了大數據識別的精確度。

附圖說明

圖1為本發明實施例提供的數據識別方法流程圖；

圖2為本發明實施例提供的根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分多個數據子集的方法流程圖；

圖3為本發明實施例提供的根據各個識別結果確定該待識別數據的最終識別結果的方法流程圖之一；

圖4為本發明實施例提供的根據各個識別結果確定該待識別數據的最終識別結果的方法流程圖之二；

圖5為本發明實施例提供的數據識別裝置結構示意圖。

具體實施方式

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司，未經日電(中國)有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210362300.5/2.html，轉載請聲明來源鉆瓜專利網。