[發明專利]基于加權皮爾遜相關系數并結合特征篩選的分類算法在審
| 申請號: | 202110774460.X | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113657441A | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 周紅芳;安蕾 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 戴媛 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 加權 皮爾遜 相關系數 結合 特征 篩選 分類 算法 | ||
1.基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,具體按照以下步驟實施:
步驟1、對包含類別數目為m的類別集合C={c1,c2,...cm},m=1,2,3...m,特征數為n的特征集F={f1,f2,f3,...fn},n=1,2,3,...n的數據集進行預處理;
步驟2、對經過預處理的數據集使用IMPROVE_FCBF算法特征篩選;
步驟3、將經過特征篩選后的數據集劃分為訓練數據和測試數據;
步驟4、在訓練集上使用基于加權皮爾遜相關系數的決策樹分類方法構造決策樹模型;
步驟5、使用建立的決策樹模型對測試數據進行測試,并使用準確率、召回率、宏觀F1以及構造決策樹所需時間作為評估指標對實驗結果進行評估。
2.根據權利要求1所述的基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,所述步驟1中預處理具體為,首先對數據集中的連續型特征值使用等寬法進行離散化處理;接著將字符串型特征值轉換為標稱數值型;然后將缺失特征值使用眾數補全;最后將數據集中的字符串類別值轉換為標稱數值型。
3.根據權利要求1所述的基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,所述步驟2具體按照以下步驟實施:
步驟2.1、初始化Slist為空集;
步驟2.2、計算每個特征fi(i=1,…,n)與類別C之間對稱不確定性SU(fi,C)值,以及每兩個特征之間的對稱不確定性度量SU(fi,fj)(i,j=1,…,n且i≠j);計算兩個變量X和Y的SU值的公式如下所示:
步驟2.3、將滿足SU(fi,C)0的特征形成Slist子集,并從大到小排序;
步驟2.4、循環判斷Slist子集中的每個特征fj是否為主特征fi的強冗余特征,若為強冗余特征,則將其從Slist子集之中剔除;
步驟2.5、對Slist中的每一個特征Fk(k=1,…,n)循環判斷Merits值是否減小,若減小則將其剔除掉;若Slist中所有特征元素均判斷完畢或滿足早停準則時,停止搜索;
步驟2.6、返回最終特征子集Slist。
4.根據權利要求3所述的基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,所述步驟2.5中,若Slist中特征元素未判斷完畢或未滿足早停準則時,則重復以下步驟:
步驟2.5.1、對每個特征Fk(k=1,…,n),令Slist[k]=Fk,計算Merits,計算Merits的公式如下所示,其中k為特征數目,rcf為特征fi與類別C之間SU(fi,C)值,rff為每兩個特征之間的對SU(fi,fj)之和平均值:
步驟2.5.2、若k>1時,若則刪除第k個特征,否則將其加入最終的特征子集Slist之中。
5.根據權利要求1所述的基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,所述步驟3中采用十折交叉驗證方法劃分數據集。
6.根據權利要求1所述的基于加權皮爾遜相關系數并結合特征篩選的分類算法,其特征在于,所述步驟4具體按照以下步驟實施:
步驟4.1、對特征篩選之后子集之中的每個特征進行遍歷,假設此時Slist中有n個特征,計算每個特征fi∈Slist(i=1,2,3,...,n)與類別C之間的加權皮爾遜相關系數,計算兩個變量X和Y之間的加權皮爾遜相關系數公式如下:
步驟4.2、將特征按照計算得到的WPCC值由大到小排序;
步驟4.3、在構造決策樹的每一層時,每次選擇WPCC值最大的特征作為分裂節點構造決策樹;
步驟4.4、迭代地構造決策樹,直到達到決策樹終止條件,決策樹模型構造完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110774460.X/1.html,轉載請聲明來源鉆瓜專利網。





