[發明專利]數據分類方法及裝置在審
| 申請號: | 201410838411.8 | 申請日: | 2014-12-29 |
| 公開(公告)號: | CN104616029A | 公開(公告)日: | 2015-05-13 |
| 發明(設計)人: | 龍飛;陳志軍;張濤 | 申請(專利權)人: | 小米科技有限責任公司 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G06F17/30 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 分類 方法 裝置 | ||
技術領域
本公開涉及數據挖掘技術領域,尤其涉及一種數據分類方法及裝置。
背景技術
分類可用于預測,預測的目的是從歷史數據記錄中從而能對未來自動推導出對給定數據的趨勢描述,從而能對未來數據進行類預測。數據分類具有廣泛的應用,例如:醫療診斷、信用卡系統的信用分級、圖像模式識別等領域。
分類的目的是學會一個分類器(分類函數或分類模型),該分類器能夠把數據塊中待分類的數據項映射到給定的某個特定類別中。但相關技術中,在訓練分類器時,通常利用大量的隨機信號作為輸入信號用來訓練分類字典(即分類器),這使得分類字典的訓練過程復雜而且耗時較長,導致數據分類的速度較慢、效率較低。
發明內容
為克服相關技術中存在的問題,本公開提供一種數據分類方法及裝置。
根據本公開實施例的第一方面,提供一種數據分類方法,包括:
識別預設樣本數據庫中每個訓練樣本的類別;
在預設樣本數據庫中分別選取第一訓練樣本集和第二訓練樣本集,每個訓練樣本集都包含有所述預設樣本數據庫中所有類別的多個訓練樣本;
確定所述第一訓練樣本集中每一類別的訓練樣本的平均樣本;
利用預設迭代算法對所有類別的平均樣本進行迭代運算得到所述第一訓練樣本集的分類字典;
將所述第二訓練樣本集中的每個訓練樣本在所述分類字典下分解得到一個訓練稀疏系數向量;
將得到的所有訓練稀疏系數向量級聯得到訓練矩陣,所述訓練矩陣包含有至少兩個列向量;
根據所述第二訓練樣本集中的每個訓練樣本的類別確定所述訓練矩陣中每個列向量的類別標簽,并保存所述訓練矩陣中每個列向量對應的類別標簽。
結合第一方面,在第一方面第一種可能的實現方式中,所述訓練樣本為圖像;
所述確定所述第一訓練樣本集中每一類別的訓練樣本的平均樣本,包括:
計算所述第一訓練樣本集中每一類別的多個樣本相同位置上像素點的像素值的平均值;
對于每個類別,分別將所有像素點的像素值均為平均值的樣本確定為對應類別的平均樣本。
結合第一方面第一種可能的實現方式,在第一方面第二種可能的實現方式中,所述利用預設迭代算法對所有類別的平均樣本進行迭代運算得到所述第一訓練樣本集的分類字典,包括:
利用預設迭代算法對每一類別的平均樣本均進行迭代運算得到每個類別的類別字典;
將每個類別的類別字典級聯得到所述第一訓練樣本集的分類字典。
根據本公開實施例的第二方面,提供一種數據分類方法,包括:
在預設樣本數據庫任意選取一個訓練樣本作為測試樣本;
將所述測試樣本映射到上述的分類字典上得到所述測試樣本的稀疏系數向量;
計算所述稀疏系數向量與上述的訓練矩陣中每個列向量的漢明距離;
根據所述稀疏系數向量與所述的訓練矩陣中所有列向量的漢明距離確定所述測試樣本的目標類別。
結合第二方面,第二方面第一種可能的實現方式,所述根據所述稀疏系數向量與所述的訓練矩陣中所有列向量的漢明距離確定所述測試樣本的目標類別,包括:
比較所述稀疏系數向量與所述的訓練矩陣中所有列向量的漢明距離;
在所述訓練矩陣中所有列向量選取漢明距離最小的所有列向量作為參考列向量;
根據所述訓練矩陣中每個列向量對應的類別標簽,統計所有所述參考列向量對應的每個類別的類別標簽的數量;
將數量最多的類別標簽所對應的類別確定為所述測試樣本的目標類別。
根據本公開實施例的第三方面,提供一種數據分類裝置,包括:
類別識別模塊,用于識別預設樣本數據庫中每個訓練樣本的類別;
樣本集選取模塊,用于在預設樣本數據庫中分別選取第一訓練樣本集和第二訓練樣本集,每個訓練樣本集都包含有所述預設樣本數據庫中所有類別的多個訓練樣本;
平均樣本確定模塊,用于確定所述第一訓練樣本集中每一類別的訓練樣本的平均樣本;
計算模塊,用于利用預設迭代算法對所有類別的平均樣本進行迭代運算得到所述第一訓練樣本集的分類字典;
分解模塊,用于將所述第二訓練樣本集中的每個訓練樣本在所述分類字典下分解得到一個訓練稀疏系數向量;
級聯模塊,用于將得到的所有訓練稀疏系數向量級聯得到訓練矩陣,所述訓練矩陣包含有至少兩個列向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于小米科技有限責任公司;,未經小米科技有限責任公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410838411.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





