[發明專利]非均勻大數據分類方法有效

申請號：	201310452365.3	申請日：	2013-09-29
公開（公告）號：	CN103500205B	公開（公告）日：	2017-04-12
發明（設計）人：	朱曉峰;張師超	申請（專利權）人：	廣西師范大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	桂林市華杰專利商標事務所有限責任公司45112	代理人：	巢雄輝
地址：	541004 廣西壯***	國省代碼：	廣西;45
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	均勻數據分類方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.非均勻大數據的分類方法，包括下述步驟：

(1)獲得大數據各類實例的數目m_i,i=1,2,…,M；

(2)采用降抽樣方法為每個類m_i抽樣出D_i數據集；

(3)對每個數據集構建一個元分類器；

(4)對每個類m_i的D_i個分類器進行集成學習；

(5)測試：對每一個實例，在每個類m_i中進行分類，得到的M個結果中準確率最高的類為測試實例的類別。

2.根據權利要求1的方法，所述步驟（2）的每個數據集的數據量n_i由確定，

其中t_a/2表示置信度的值，通過t分布臨界值獲得，e表示設定的最大的允許誤差。

3.根據權利要求1或2的方法，所述步驟（2）的具體過程如下：

A.當前類當成A類，其他類統一稱為非A類；接著，分析A類和非A類的數量級別；記#(A),#(～A),#(R),#(T)分別為A類，非A類，計算機內存和理論要求的樣本量的數據，如果(#(A)>>#(R))&&(#(A)>#(T))，則從A類中抽取與非A類差不多的實例；如果(#(～A)>>#(R))&&(#(～A)>#(T))，則從非A類中抽取與A類差不多的實例；

B.重復上述過程，直至每個類m_i抽樣出D_i，并固定D_i=n；

C.整個數據集生成D=M*n個子數據集。

4.根據權利要求1的方法，在步驟（3），對每個類m_i的D_i個數據集構建Di個元分類器的方法選自：二類分類法、最近鄰算法、決策樹法、神經網絡法或森林樹法。

5.根據權利要求1或4的方法，在步驟（3），對每個類m_i的D_i個數據集構建Di個元分類器的方法選用：二類分類法。

6.根據權利要求1的方法，在步驟（4），采取向前貪婪集成分類結果方法對每個類mi的Di個元分類器進行集成學習，得到一個集成分類器。

7.根據權利要求1或6的方法，在步驟（4），采取向前貪婪集成分類結果方法的具體過程如下：

D.構建候選分類器集合CCS={C₁,…,C_M}和選定的分類器集合SCS={}；

E.對每個分類器C_i，選取準確率最好的分類器，把它從CCS去掉而加入SCS中；

F.把當前每個CCS中的分類器C_j加入SCS中驗證，分類結果如果超過用戶事先指定的閾值，則跳到E，且把C_j從CCS移到SCS，否則跳到步驟（5）；

G.重復F，直到CCS為空集，

至此，對M個類，一共建立了M個集成分類器Ci,i=1,…，M，每個集成分類器包含n個元分類器。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。