[發(fā)明專利]基于J散度的新型決策樹分類方法在審
| 申請?zhí)枺?/td> | 201910082556.2 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109754023A | 公開(公告)日: | 2019-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 楊云帆;陳文 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海漢聲知識產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 莊文莉 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 決策樹 結(jié)點(diǎn) 樣本數(shù)據(jù) 數(shù)據(jù)集 決策樹分類算法 決策規(guī)則 類別標(biāo)簽 輸入樣本 數(shù)據(jù)子集 信息度量 樣本子集 葉子結(jié)點(diǎn) 原始樣本 終止條件 準(zhǔn)確度 根結(jié)點(diǎn) 分類 預(yù)測 遞歸 樣本 規(guī)范化 分裂 創(chuàng)建 | ||
1.一種基于J散度的新型決策樹分類方法,其特征在于,包括以下步驟:
S1、規(guī)范化輸入樣本數(shù)據(jù)集D={Xj(i);C(i)},i=1,2,...,M,j=1,2,...,N,其中,Xj(i)表示樣本X(i)在特征Aj上的特征值,C(i)∈{c1,c2,...,cK}表示樣本X(i)對應(yīng)的類別標(biāo)簽值;
S2、設(shè)置樣本數(shù)據(jù)集或數(shù)據(jù)子集的劃分終止條件,也即決策樹根據(jù)當(dāng)前結(jié)點(diǎn)的狀態(tài),生成葉子結(jié)點(diǎn)不再繼續(xù)劃分的條件;
S3、準(zhǔn)備對原始樣本數(shù)據(jù)集進(jìn)行劃分,創(chuàng)建決策樹的根結(jié)點(diǎn);
S4、按照劃分準(zhǔn)則進(jìn)行樣本數(shù)據(jù)集的劃分、決策樹結(jié)點(diǎn)的分裂以及決策規(guī)則的產(chǎn)生;
S5、采用遞歸的方式,將每次劃分得到的樣本子集繼續(xù)按照步驟S2、S3、S4進(jìn)行劃分,得到新的結(jié)點(diǎn);
S6、對未知類別標(biāo)簽值的樣本X*進(jìn)行類別值的判別預(yù)測。
2.根據(jù)權(quán)利要求1所述的基于J散度的新型決策樹分類方法,其特征在于,所述步驟S1中,原始樣本數(shù)據(jù)集D中有M個樣本,每個樣本用X(i),i=1,2,...,M表示,樣本數(shù)據(jù)集D中同樣包含了N個特征Aj,j=1,2,...,N,每個特征Aj是類別型特征或者數(shù)值型特征,此外,數(shù)據(jù)集中共有K個類別標(biāo)簽值構(gòu)成集合C={c1,c2,...,cK},每個樣本都由這N個特征所對應(yīng)的N個特征值和一個類別標(biāo)簽值所描述,其中,對應(yīng)的特征值描述為Xj(i),i=1,2,...,M,j=1,2,...,N,對應(yīng)的類別標(biāo)簽值描述為C(i),i=1,2,...,M。
3.根據(jù)權(quán)利要求1所述的基于J散度的新型決策樹分類方法,其特征在于,所述步驟S2中,劃分終止條件有3個,分別為:
a.設(shè)置參數(shù)決策樹最大高度MaxHeight,如果當(dāng)前結(jié)點(diǎn)在樹中的高度大于MaxHeight,則直接生成葉子結(jié)點(diǎn),不再繼續(xù)往下劃分;
b.設(shè)置葉子結(jié)點(diǎn)最小樣本個數(shù)MinSamples,如果與當(dāng)前結(jié)點(diǎn)相關(guān)的樣本集或樣本子集中的樣本個數(shù)小于等于MinSamples,則直接生成葉子節(jié)點(diǎn),不再繼續(xù)往下劃分;
c.設(shè)置當(dāng)前結(jié)點(diǎn)類別最小不確定度MinUncertainty,其取值范圍在[0,1]之間,如果當(dāng)前結(jié)點(diǎn)的不確定度Uc(p)小于MinUncertainty,則直接生成葉子節(jié)點(diǎn),不再繼續(xù)往下劃分。
4.根據(jù)權(quán)利要求3所述的基于J散度的新型決策樹分類方法,其特征在于,所述當(dāng)前結(jié)點(diǎn)的不確定度Uc(p)的計(jì)算方法如下:假設(shè)與當(dāng)前結(jié)點(diǎn)相關(guān)聯(lián)的樣本集或樣本子集為Dc={Xj(i);C(i)},i=1,2,...,Mc,j=1,2,...,N,則計(jì)算當(dāng)前結(jié)點(diǎn)的不確定度為:
其中,K表示類別標(biāo)簽值的個數(shù),即數(shù)據(jù)集樣本分為K個不同的類別,p=(p1,p2,...,pK)是當(dāng)前樣本集中樣本類別標(biāo)簽值的概率分布向量,每個概率值由pk=|∑(C(i)=ck)|/|Dc|計(jì)算,其中|∑(C(i)=ck)|表示與當(dāng)前結(jié)點(diǎn)相關(guān)聯(lián)的樣本集或樣本子集Dc中類別標(biāo)簽值為ck的樣本個數(shù),|Dc|表示樣本集或樣本子集大小,即Dc中樣本總數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910082556.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種自組織網(wǎng)絡(luò)安全可控域的建立和管理方法
- 一種數(shù)字高程模型洼地的填平處理方法
- 快速批量處理樹形結(jié)點(diǎn)的方法及系統(tǒng)
- 一種非結(jié)構(gòu)化大數(shù)據(jù)流的內(nèi)容語義挖掘方法
- 一種微網(wǎng)實(shí)驗(yàn)平臺及其控制系統(tǒng)
- 一種數(shù)據(jù)查詢的方法及裝置
- 一種基于守衛(wèi)計(jì)算的區(qū)間信息分析方法
- 一種快速遍歷樹形結(jié)構(gòu)的方法
- 一種任務(wù)調(diào)度方法和裝置
- 移動終端中界面結(jié)點(diǎn)的匹配文本生成、匹配方法及裝置
- 生物樣本庫應(yīng)用管理系統(tǒng)
- 一種模型訓(xùn)練方法及裝置
- 一種評價尺度穩(wěn)定的數(shù)據(jù)標(biāo)記分配、統(tǒng)計(jì)的方法及系統(tǒng)
- 情報數(shù)據(jù)處理的方法、裝置、設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)融合方法及裝置
- 一種數(shù)據(jù)標(biāo)注方法、裝置、存儲介質(zhì)及電子設(shè)備
- 樣本數(shù)據(jù)預(yù)測方法、裝置和計(jì)算機(jī)可讀介質(zhì)
- 分層抽樣方法、裝置和用于分層抽樣的裝置
- 數(shù)據(jù)樣本擴(kuò)充的方法、裝置和電子設(shè)備
- 數(shù)據(jù)集及數(shù)據(jù)集“異或”的DMA傳送
- 數(shù)據(jù)處理的方法和系統(tǒng)
- 鏈接數(shù)據(jù)集
- 數(shù)據(jù)處理方法及其設(shè)備
- VR視頻轉(zhuǎn)碼方法及裝置
- 數(shù)據(jù)匹配方法以及裝置
- 一種非平衡數(shù)據(jù)集的分類方法
- 處理數(shù)據(jù)的方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 基于數(shù)據(jù)傾斜的關(guān)聯(lián)查詢方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實(shí)體識別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)





