[發明專利]非均勻大數據分類方法有效
| 申請號: | 201310452365.3 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN103500205B | 公開(公告)日: | 2017-04-12 |
| 發明(設計)人: | 朱曉峰;張師超 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司45112 | 代理人: | 巢雄輝 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 均勻 數據 分類 方法 | ||
1.非均勻大數據的分類方法,包括下述步驟:
(1)獲得大數據各類實例的數目mi,i=1,2,…,M;
(2)采用降抽樣方法為每個類mi抽樣出Di數據集;
(3)對每個數據集構建一個元分類器;
(4)對每個類mi的Di個分類器進行集成學習;
(5)測試:對每一個實例,在每個類mi中進行分類,得到的M個結果中準確率最高的類為測試實例的類別。
2.根據權利要求1的方法,所述步驟(2)的每個數據集的數據量ni由確定,
其中ta/2表示置信度的值,通過t分布臨界值獲得,e表示設定的最大的允許誤差。
3.根據權利要求1或2的方法,所述步驟(2)的具體過程如下:
A.當前類當成A類,其他類統一稱為非A類;接著,分析A類和非A類的數量級別;記#(A),#(~A),#(R),#(T)分別為A類,非A類,計算機內存和理論要求的樣本量的數據,如果(#(A)>>#(R))&&(#(A)>#(T)),則從A類中抽取與非A類差不多的實例;如果(#(~A)>>#(R))&&(#(~A)>#(T)),則從非A類中抽取與A類差不多的實例;
B.重復上述過程,直至每個類mi抽樣出Di,并固定Di=n;
C.整個數據集生成D=M*n個子數據集。
4.根據權利要求1的方法,在步驟(3),對每個類mi的Di個數據集構建Di個元分類器的方法選自:二類分類法、最近鄰算法、決策樹法、神經網絡法或森林樹法。
5.根據權利要求1或4的方法,在步驟(3),對每個類mi的Di個數據集構建Di個元分類器的方法選用:二類分類法。
6.根據權利要求1的方法,在步驟(4),采取向前貪婪集成分類結果方法對每個類mi的Di個元分類器進行集成學習,得到一個集成分類器。
7.根據權利要求1或6的方法,在步驟(4),采取向前貪婪集成分類結果方法的具體過程如下:
D.構建候選分類器集合CCS={C1,…,CM}和選定的分類器集合SCS={};
E.對每個分類器Ci,選取準確率最好的分類器,把它從CCS去掉而加入SCS中;
F.把當前每個CCS中的分類器Cj加入SCS中驗證,分類結果如果超過用戶事先指定的閾值,則跳到E,且把Cj從CCS移到SCS,否則跳到步驟(5);
G.重復F,直到CCS為空集,
至此,對M個類,一共建立了M個集成分類器Ci,i=1,…,M,每個集成分類器包含n個元分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310452365.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





