[發(fā)明專利]多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610406793.6 | 申請(qǐng)日: | 2016-06-07 |
| 公開(公告)號(hào): | CN106611185A | 公開(公告)日: | 2017-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 金平艷;胡成華 | 申請(qǐng)(專利權(quán))人: | 四川用聯(lián)信息技術(shù)有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標(biāo)準(zhǔn) 分類 代價(jià) 敏感 決策樹 構(gòu)建 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹構(gòu)建方法。
背景技術(shù)
在歸納學(xué)習(xí)技術(shù)中如何盡量減少誤分類錯(cuò)誤是主要焦點(diǎn),例如CART和C4.5。在歸納問題上誤分類不僅是一個(gè)錯(cuò)誤,即錯(cuò)誤分類所帶來的代價(jià)不容忽略。在代價(jià)敏感學(xué)習(xí)CLS算法中,誤分類代價(jià)為同一單位標(biāo)準(zhǔn),但在現(xiàn)實(shí)世界的應(yīng)用程序誤分類代價(jià)通常有不同的單位。把不同單位標(biāo)準(zhǔn)的誤分類代價(jià)量化成一個(gè)唯一單位代價(jià)是非常困難的。分裂屬性選擇是決策樹構(gòu)建的一個(gè)關(guān)鍵又基本過程,最流行的屬性選擇方法側(cè)重于測(cè)量屬性的信息增益。當(dāng)錯(cuò)誤分類所引起的代價(jià)不容忽視時(shí),很自然地把降低代價(jià)機(jī)制和屬性信息結(jié)合起來作為分裂屬性選擇標(biāo)準(zhǔn),這樣構(gòu)成的決策樹既提高了分類精度,同時(shí)誤分類代價(jià)達(dá)到最優(yōu),我們的目的就是得到最低的誤分類代價(jià)。這樣形成的決策樹更適合在醫(yī)療診斷過程中?;谶@種需求,本發(fā)明提出多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹構(gòu)建方法。
發(fā)明內(nèi)容
本發(fā)明所要解決技術(shù)問題是決策過程中誤分類代價(jià)和屬性信息之間的平衡性問題、誤分類代價(jià)不同單位機(jī)制問題以及構(gòu)成的決策樹過度擬合問題,提供一種多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹構(gòu)建方法。
為解決上述問題,本發(fā)明的是通過以下技術(shù)方案實(shí)現(xiàn)的:
多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹構(gòu)建方法,包括如下步驟:
步驟1.設(shè)訓(xùn)練集中有X個(gè)樣本,屬性個(gè)數(shù)為n,即n=(s1,s2,…sn),同時(shí)分裂屬性sr對(duì)應(yīng)了m個(gè)類L,其中Li∈(L1,L2…,Lm),r∈(1,2…,n),i∈(1,2…,m)。設(shè)誤分類代價(jià)矩陣為C,C由用戶指定。
步驟2:創(chuàng)建根節(jié)點(diǎn)G。
步驟3:如果訓(xùn)練數(shù)據(jù)集為空,則返回節(jié)點(diǎn)G并標(biāo)記失敗。
步驟4:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別,則以該類型標(biāo)記節(jié)點(diǎn)G。
步驟5:如果候選屬性為空,則返回G為葉子節(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最 普通的類。
步驟6:根據(jù)代價(jià)敏感的候選屬性選擇因子ASF候選屬性中選擇splitS。
候選屬性選擇因子ASF:
averagegain(S)為選擇屬性S的平均信息增益,reduce_mc(S)為選擇屬性S作為分裂屬性時(shí)的誤分類代價(jià)減少率。
當(dāng)選擇屬性splitS滿足目標(biāo)函數(shù)ASF(S)最小時(shí),則找到標(biāo)記節(jié)點(diǎn)G。如果一些屬性具有相同的ASF值,為了打破平局的標(biāo)準(zhǔn),再按照更大的reduce_mc(S)值來優(yōu)先選擇候選屬性。這樣構(gòu)建的決策樹優(yōu)先遵從誤分類代價(jià)最低的原則。
步驟7:標(biāo)記節(jié)點(diǎn)G為屬性splitS。
步驟8:由根據(jù)基尼指數(shù)gini(Si)值延伸出滿足條件為splitS=splitSi分支。
8.1這里假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合。滿足以下兩條件之一,則終止建樹。
(1)如果Yi為空,加上一個(gè)葉子節(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。
(2)在一節(jié)點(diǎn)中所有例子屬于相同類。
步驟9:非8.1中情況,則遞歸調(diào)用步驟6至步驟8。
步驟10:為避免決策樹中存在過渡擬合問題,利用后剪支技術(shù)對(duì)決策樹進(jìn)行剪支操作。
本發(fā)明的有益效果:
1,對(duì)屬性信息增益進(jìn)行優(yōu)化處理,避免因?qū)傩孕畔⒃鲆孢^小而忽略了屬性信息的風(fēng)險(xiǎn)。
2,把不同單位標(biāo)準(zhǔn)的誤分類代價(jià)量化為同一單位標(biāo)準(zhǔn),降低了誤分類代價(jià)單位異質(zhì)性對(duì)分裂屬性選擇的影響。
3,考慮了誤分類代價(jià)和屬性信息之間的平衡性,在決策過程中,使得誤分類代價(jià)達(dá)到最小,同時(shí)提高了決策樹分類精度。
4,構(gòu)建多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹有效地避免了過度擬合的問題。
附圖說明
附圖為多標(biāo)準(zhǔn)誤分類代價(jià)敏感決策樹結(jié)構(gòu)流程圖
具體實(shí)施方式
1、上述步驟1中誤分類代價(jià)矩陣C的設(shè)定過程如下:
類別標(biāo)識(shí)個(gè)數(shù)為m,則該數(shù)據(jù)的代價(jià)矩陣m×m方陣是:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川用聯(lián)信息技術(shù)有限公司,未經(jīng)四川用聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610406793.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- FPGA芯片的局部布局的優(yōu)化方法
- 一種代價(jià)估計(jì)的方法及設(shè)備
- 一種深度信息確定方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于GPU的雙目匹配算法的方法及處理裝置
- 視差圖的獲取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 圖像立體匹配方法
- 圖像處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- 一種基于特定類的多目標(biāo)代價(jià)敏感屬性約簡(jiǎn)算法
- 一種礦區(qū)無人駕駛車輛的泊車方法及系統(tǒng)
- 一種礦區(qū)無人駕駛車輛的泊車方法及系統(tǒng)
- 可測(cè)量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡(jiǎn)化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法





