[發明專利]一種數據識別方法及裝置有效
申請號: | 201210362300.5 | 申請日: | 2012-09-25 |
公開(公告)號: | CN103678419A | 公開(公告)日: | 2014-03-26 |
發明(設計)人: | 李建強;劉春辰 | 申請(專利權)人: | 日電(中國)有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 孔凡紅 |
地址: | 100191 北京市*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 數據 識別 方法 裝置 | ||
1.一種數據識別方法,其特征在于,包括:
分別確定多個識別器對待識別數據進行數據識別的識別結果,所述多個識別器為分別通過根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成的多個數據子集進行訓練形成的識別器;
根據各個識別結果確定該待識別數據的最終識別結果。
2.如權利要求1所述的方法,其特征在于,所述根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成多個數據子集,具體包括:
獲取所述數據集中的標注數據樣本;
從所述標注數據樣本中,確定每組相似度最大的設定數量的標注數據樣本為一個數據子集,直至所述數據集中的每個標注數據樣本均被劃分至數據子集中。
3.如權利要求2所述的方法,其特征在于,所述根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成多個數據子集,具體包括:
將標注數據集中的每個標注數據樣本作為初始的數據子集;
對于每個所包含標注數據樣本數量小于設定的第一閾值的數據子集,根據該數據子集與其他數據子集之間的相似度,將該數據子集與其他數據子集進行合并;對每個所包含標注數據樣本數量大于設定的第二閾值的數據子集,將其切分為多個數據子集,并保證切分后的每個數據子集中所包含標注數據樣本數量均小于設定的第二閾值,且至多有一個數據子集中所包含標注數據樣本數量小于設定的第一閾值;
確定每個數據子集中所包含標注數據樣本數量均大于設定的第一閾值且小于設定的第二閾值時,將當前所劃分的數據子集結果作為根據標注數據樣本的差異性將包含標注數據樣本的標注數據集劃分成的多個數據子集。
4.如權利要求1-3任一所述的方法,其特征在于,所述分別確定多個識別器對待識別數據進行數據識別的識別結果前,還包括:
確定將與待識別數據關聯程度最大的設定個數的識別器,作為所述多個識別器;或者
確定將與待識別數據的關聯程度大于設定閾值的識別器,作為所述多個識別器。
5.如權利要求4所述的方法,其特征在于,所述確定將與待識別數據關聯程度最大的設定個數的識別器,作為所述多個識別器,具體包括:
確定各識別器給出的該待識別數據的關聯程度分數;
將分數最高的設定個數個識別器,作為所述多個識別器;
所述確定將與待識別數據的關聯程度大于設定閾值的識別器,作為所述多個識別器,具體包括:
確定各識別器給出的該待識別數據的關聯程度分數;
將分數超過設定分數值的識別器,作為所述多個識別器。
6.如權利要求5所述的方法,其特征在于,所述各識別器給出的該待識別數據的關聯程度分數,具體為:
各識別器分別計算待識別數據和該識別器對應的數據子集的相似度,并將該相似度作為該待識別數據的關聯程度分數;或者
從所述標注數據集中選取設定數量的與所述待識別數據最相近的標注數據樣本,各識別器分別確定該識別器對應的數據子集包含的所選取的標注數據樣本的數量與該識別器對應的數據子集中的標注數據樣本數量的比值,為該待識別數據的關聯程度分數。
7.如權利要求5所述的方法,其特征在于,所述根據各個識別結果確定該待識別數據的最終識別結果,具體包括:
對于每個識別器,根據該識別器給出的該待識別數據的關聯程度分數以及該識別器對該待識別數據進行識別后給出的置信值,確定該識別器的投票權重;
根據所述多個識別器的識別結果以及其投票權重,確定該待識別數據的最終識別結果。
8.如權利要求7所述的方法,其特征在于,所述對于每個識別器,根據該識別器給出的該待識別數據的關聯程度分數以及該識別器對該待識別數據進行識別后給出的置信值,確定該識別器的投票權重,具體為:
對于每個識別器,確定該識別器的投票權重為該識別器給出的該待識別數據的關聯程度分數與該識別器對該待識別數據進行識別后給出的置信值的乘積。
9.如權利要求7所述的方法,其特征在于,所述根據所述多個識別器的識別結果以及其投票權重,確定該待識別數據的最終識別結果,具體包括:
根據多個識別器的識別結果將所述多個識別器進行分組;
根據各個識別器的投票權重,確定每個分組的加權求和值;
將加權求和值最大的分組所對應的識別結果,確定為該待識別數據的最終識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210362300.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文檔校對的方法和裝置
- 下一篇:帶簡易導向的卷收器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置