[發明專利]一種數據流決策樹分類中的缺失值處理方法在審
| 申請號: | 201410295212.7 | 申請日: | 2014-06-25 |
| 公開(公告)號: | CN104035779A | 公開(公告)日: | 2014-09-10 |
| 發明(設計)人: | 呂品;侯旭珊 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 成金玉;孟卜娟 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據流 決策樹 分類 中的 缺失 處理 方法 | ||
1.一種數據流決策樹分類中的缺失值處理方法,其特征在實現步驟如下:
步驟1:讀取數據流中的數據樣本,并使用固定容量的滑動窗口W保存最新到達的數據樣本;
步驟2:當前數據樣本中的屬性Xi存在缺失值時,建立或更新屬性Xi對應的缺失處理器,若屬性Xi的缺失處理器已存在,則跳至步驟4更新缺失處理器,否則進入步驟3建立缺失處理器;
步驟3:計算滑動窗口W中同類樣本關于屬性Xi的標準差σ(Xi),若σ(Xi)不超過閾值σm,則選擇使用眾數或平均值代替缺失值,否則建立子分類器來預測缺失值,根據此方法建立缺失處理器并跳至步驟5;
步驟4:計算缺失處理器的加權總錯誤率E,若E超過閾值β,則選擇權重最大且錯誤率ei>β*的缺失處理器進行更新,直到E低于閾值β;
步驟5:利用缺失處理器補充屬性Xi的缺失值,得到完整的數據樣本;
步驟6:依據Hoeffding決策樹分類方法訓練完整的數據樣本,動態地構造決策樹模型,并根據決策樹分裂葉子節點時的屬性度量值為每個屬性Xi更新權重;
步驟7:返回數據流決策樹分類結果。
2.根據權利要求1所述一種數據流決策樹分類中的缺失值處理方法,其特征在于:所述步驟3中計算滑動窗口W中同類樣本關于屬性Xi的標準差σ(Xi)的方法為:
對于s個數據樣本,數據屬性X={X1,X2,...,Xn},令xij表示屬性Xi在第j個樣本中的屬性值,當屬性Xi為離散屬性時,樣本標準差σ(Xi)為:
其中,Mi表示屬性Xi在計算樣本中屬性值的眾數;當屬性Xi為連續屬性時,樣本標準差σ(Xi)為:
其中,μi表示屬性Xi在計算樣本中屬性值的平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410295212.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種控制RING0級程序執行的方法及裝置
- 下一篇:一種電子設備及支架結構





