[發明專利]用于不完整數據分類的集成學習樹構建方法在審
| 申請號: | 202111363459.4 | 申請日: | 2021-11-17 |
| 公開(公告)號: | CN114169542A | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 周紅芳;許海晨 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 談耀文 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 完整 數據 分類 集成 學習 構建 方法 | ||
本發明公開用于不完整數據分類的集成學習樹與基于視圖的決策樹、J48相比,分類精確率、回歸率和F1有所提升;本發明的方法在選擇視圖對應的特征時,既考慮了待選特征對于分類效果的提升程度,又考慮了待選特征和整個已選特征集合的冗余關系;并且在視圖的基礎上提出了缺失模式的概念,測試樣本先根據其視圖到達對應的樹節點,然后再根據其缺失模式找到其對應的一系列分類器,這些分類器使用集成學習的方法對其進行分類。結果顯示,在大部分數據集下,本發明提出的方法相比于其他兩種方法而言,評估指標更優。
技術領域
本發明屬于數據挖掘處理技術領域,具體涉及一種用于不完整數據分類的集成學習樹構建方法。
背景技術
隨著信息社會的快速發展,各個領域的數據規模也在快速增長,如何在這些海量的數據中找到本發明需要的信息就顯得尤為重要。數據挖掘技術是本發明最常使用的方法之一,但是實際數據中往往存在缺失值的情況。如果直接使用這些不完整的數據進行分類/預測,就會影響到分類/預測結果。因此有必要對這些不完整數據進行處理。
目前,對于不完整數據的分類方法主要有兩種。第一種是直接忽略掉那些具有缺失值的樣本,然后用處理完整數據的方法對剩下的樣本進行處理。這樣做雖然很簡單,但是如果缺失值樣本比例過高時,就會嚴重影響實際數據的分類效果。
第二種方法是使用統計模型或機器學習方法對缺失值進行填充,然后使用處理完整數據的方法對不完整數據進行處理。這種方法可能會引進新的數據誤差,并且在填充的過程中會增加大量的時間和空間消耗。
發明內容
本發明的目的是提供一種用于不完整數據分類的集成學習樹構建方法,解決了現有技術中存在的對于不完整數據分類效果差的問題。
本發明所采用的技術方案是,用于不完整數據分類的集成學習樹構建方法,具體按照以下步驟實施:
步驟1、對數據集D(F1,F2,...,FK,label)進行缺失處理,其中F1,F2,...,FK為K個特征,label為所屬的類別;
步驟2、將經過缺失處理的數據集D按照十折交叉的方式劃分為訓練集D1和測試集D2;
步驟3、對訓練集D1使用基于視圖和缺失模式的方法得到初級集成學習樹;
步驟4、利用測試集D2對初級集成學習樹進行測試,獲得集成學習樹。
本發明的特點還在于:
步驟1數據集選自以下數據集:hepatitis、breast-cancer、processed-cleveland、processed-hungarian、primary-tumor、horse colic、mammographic_masses。
步驟1具體過程為:
判斷數據集D(F1,F2,...,FK,label)是否缺失數據,其中F1,F2,...,FK為K個特征,label為所屬的類別,若缺失,則不進行處理,若不缺失,則采用完全隨機缺失的準則將數據集D變為不完整數據集。
步驟3具體過程為:
步驟3.1、采用遞歸調用生成學習樹,對于學習樹上的節點node,判斷節點node是否為根節點,若為根節點,則該節點包含的樣本集合為訓練集D1;若不是根節點,則為用其父節點的分類器分到某一類別的樣本集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111363459.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





