[發明專利]一種改進的不確定連續屬性決策樹的構建方法在審
| 申請號: | 201610551758.3 | 申請日: | 2016-07-14 |
| 公開(公告)號: | CN106611192A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 金平艷;胡成華 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 不確定 連續 屬性 決策樹 構建 方法 | ||
1.一種改進的不確定連續屬性決策樹的構建方法,本發明涉及機器學習、人工智能以及數據挖掘領域,具體涉及一種改進的不確定連續屬性決策樹的構建方法,其特征是,包括如下步驟:
步驟1:設不確定連續屬性訓練集中有X個樣本,屬性個數為n,即同時分裂屬性對應了m個類,其中其中屬性值具有連續不確定性
步驟2:把不確定連續數據屬性的屬性值合并排序,根據類對不確定性數據屬性進行屬性值運算,記為概率和對類進行處理得每一分支屬性值的概率勢
步驟3:創建根節點G
步驟4:如果訓練數據集為空,則返回節點G并標記失敗
步驟5:如果訓練數據集中所有記錄都屬于同一類別,則該類型標記節點G
步驟6:如果候選屬性為空,則返回G為葉子結點,標記為訓練數據集中最普通的類
步驟7:由于連續屬性值的不確定性,根據目標函數從候選屬性中選擇
步驟8:標記節點G為屬性
步驟9:由節點延伸出滿足條件為分支以及子分支,如果滿足以下兩條件之一,就停止建樹,同時利用先剪支技術對決策樹實施進一步優化操作
9.1這里假設為訓練數據集中的樣本集合,如果為空,加上一個葉子結點,根據設定的算法將此葉子結點標記為訓練數據集中最普通的類
9.2此節點中所有例子屬于同一類
步驟10:非9.1與9.2中情況,則遞歸調用步驟7至步驟9
步驟11:保存改進的連續不確定性屬性的決策樹分類器。
2.根據權利要求1中所述的一種改進的不確定連續屬性決策樹的構建方法,其特征是,以上所述步驟7中的具體計算過程如下:
步驟7:由于連續屬性值的不確定性,根據下面目標函數從候選屬性中選擇其具體計算過程如下:
目標函數:
上式為步驟2中屬性的屬性值對應類為的概率勢,j為屬性值個數
當選擇屬性滿足目標函數越大時,則找到標記節G。
3.根據權利要求1中所述的一種改進的不確定連續屬性決策樹的構建方法,其特征是,以上所述步驟9中的具體計算過程如下:
步驟9:由節點延伸出滿足條件為分支以及子分支,如果滿足以下兩條件之一,就停止建樹,同時利用先剪支技術對決策樹實施進一步優化操作,其具體計算過程如下:
在建樹過程中,順序利用下列規則對樹進行剪枝操作:
上式為屬性值中類為L的個數,10%、為用戶設定的一個閾值,只有滿足用戶需求,才能更好的提高決策樹模型分類以及預測精度
9.1這里假設為訓練數據集中的樣本集合,如果為空,加上一個葉子結點,根據設定的算法將此葉子結點標記為訓練數據集中最普通的類,其具體實現算法如下:
對于不確定連續屬性最終樹中類的確定算法:
根據步驟2中得到的 對子分支按值從大到小進行從右到左排序,從右至左進行下列運算,
上式h為樹的深度,h<k, c<k
9.2此節點中所有例子屬于同一類,其具體實現過程如下:
分支葉子節點的確定先對比訓練集再由值大小確定,即
通過上式就可以確定葉子結點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610551758.3/1.html,轉載請聲明來源鉆瓜專利網。





