[發(fā)明專利]非均勻大數(shù)據(jù)分類方法有效
| 申請?zhí)枺?/td> | 201310452365.3 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN103500205B | 公開(公告)日: | 2017-04-12 |
| 發(fā)明(設(shè)計)人: | 朱曉峰;張師超 | 申請(專利權(quán))人: | 廣西師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 桂林市華杰專利商標事務(wù)所有限責(zé)任公司45112 | 代理人: | 巢雄輝 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 均勻 數(shù)據(jù) 分類 方法 | ||
1.非均勻大數(shù)據(jù)的分類方法,包括下述步驟:
(1)獲得大數(shù)據(jù)各類實例的數(shù)目mi,i=1,2,…,M;
(2)采用降抽樣方法為每個類mi抽樣出Di數(shù)據(jù)集;
(3)對每個數(shù)據(jù)集構(gòu)建一個元分類器;
(4)對每個類mi的Di個分類器進行集成學(xué)習(xí);
(5)測試:對每一個實例,在每個類mi中進行分類,得到的M個結(jié)果中準確率最高的類為測試實例的類別。
2.根據(jù)權(quán)利要求1的方法,所述步驟(2)的每個數(shù)據(jù)集的數(shù)據(jù)量ni由確定,
其中ta/2表示置信度的值,通過t分布臨界值獲得,e表示設(shè)定的最大的允許誤差。
3.根據(jù)權(quán)利要求1或2的方法,所述步驟(2)的具體過程如下:
A.當(dāng)前類當(dāng)成A類,其他類統(tǒng)一稱為非A類;接著,分析A類和非A類的數(shù)量級別;記#(A),#(~A),#(R),#(T)分別為A類,非A類,計算機內(nèi)存和理論要求的樣本量的數(shù)據(jù),如果(#(A)>>#(R))&&(#(A)>#(T)),則從A類中抽取與非A類差不多的實例;如果(#(~A)>>#(R))&&(#(~A)>#(T)),則從非A類中抽取與A類差不多的實例;
B.重復(fù)上述過程,直至每個類mi抽樣出Di,并固定Di=n;
C.整個數(shù)據(jù)集生成D=M*n個子數(shù)據(jù)集。
4.根據(jù)權(quán)利要求1的方法,在步驟(3),對每個類mi的Di個數(shù)據(jù)集構(gòu)建Di個元分類器的方法選自:二類分類法、最近鄰算法、決策樹法、神經(jīng)網(wǎng)絡(luò)法或森林樹法。
5.根據(jù)權(quán)利要求1或4的方法,在步驟(3),對每個類mi的Di個數(shù)據(jù)集構(gòu)建Di個元分類器的方法選用:二類分類法。
6.根據(jù)權(quán)利要求1的方法,在步驟(4),采取向前貪婪集成分類結(jié)果方法對每個類mi的Di個元分類器進行集成學(xué)習(xí),得到一個集成分類器。
7.根據(jù)權(quán)利要求1或6的方法,在步驟(4),采取向前貪婪集成分類結(jié)果方法的具體過程如下:
D.構(gòu)建候選分類器集合CCS={C1,…,CM}和選定的分類器集合SCS={};
E.對每個分類器Ci,選取準確率最好的分類器,把它從CCS去掉而加入SCS中;
F.把當(dāng)前每個CCS中的分類器Cj加入SCS中驗證,分類結(jié)果如果超過用戶事先指定的閾值,則跳到E,且把Cj從CCS移到SCS,否則跳到步驟(5);
G.重復(fù)F,直到CCS為空集,
至此,對M個類,一共建立了M個集成分類器Ci,i=1,…,M,每個集成分類器包含n個元分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣西師范大學(xué),未經(jīng)廣西師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310452365.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





