[發(fā)明專利]基于加權(quán)皮爾遜相關(guān)系數(shù)并結(jié)合特征篩選的分類算法在審
| 申請(qǐng)?zhí)枺?/td> | 202110774460.X | 申請(qǐng)日: | 2021-07-08 |
| 公開(公告)號(hào): | CN113657441A | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 周紅芳;安蕾 | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 戴媛 |
| 地址: | 710048 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 加權(quán) 皮爾遜 相關(guān)系數(shù) 結(jié)合 特征 篩選 分類 算法 | ||
本發(fā)明公開了基于加權(quán)皮爾遜相關(guān)系數(shù)并結(jié)合特征篩選的分類算法,首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理后的數(shù)據(jù)集使用IMPROVE_FCBF算法進(jìn)行特征篩選;然后將進(jìn)行特征篩選之后的數(shù)據(jù)使用十折交叉驗(yàn)證方法劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上使用基于加權(quán)皮爾遜相關(guān)系數(shù)的決策樹算法構(gòu)造決策樹;最后使用構(gòu)造好的決策樹模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類得出結(jié)果,使用評(píng)估指標(biāo)準(zhǔn)確率、召回率、宏觀F1值和決策樹的構(gòu)造時(shí)間對(duì)決策樹分類模型進(jìn)行評(píng)估。基于以上評(píng)價(jià)指標(biāo),本發(fā)明相比其他決策樹分類算法均有不同程度的提升與改進(jìn)。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,涉及基于加權(quán)皮爾遜相關(guān)系數(shù)并結(jié)合特征篩選的分類算法。
背景技術(shù)
移動(dòng)互聯(lián)網(wǎng)時(shí)代,面對(duì)海量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析是無法對(duì)其進(jìn)行處理的,我們必須要用一種新的方法來處理它們,數(shù)據(jù)挖掘技術(shù)正是處理大量數(shù)據(jù)最好的工具之一。在數(shù)據(jù)挖掘技術(shù)領(lǐng)域中,分類問題尤為重要,其廣泛應(yīng)用在電信、銀行、超市等各種金融商業(yè)活動(dòng)中。分類的過程可以分為兩步:第一步,對(duì)已知樣本數(shù)據(jù)進(jìn)行分析與計(jì)算,得出一個(gè)函數(shù)/模型;第二步,使用得出的函數(shù)/模型預(yù)測(cè)其他未知數(shù)據(jù)的類別。目前,相關(guān)的分類算法有很多種,如:決策樹算法、遺傳算法、聚類算法、神經(jīng)網(wǎng)絡(luò)算法等。其中,決策樹分類算法因其具有可解釋性強(qiáng)、速度快以及準(zhǔn)確率高等優(yōu)點(diǎn),成為最通用的分類算法之一。常見的決策樹分類算法有:ID3算法、C4.5算法、CART算法和PCC-Tree算法等。
傳統(tǒng)的決策樹分類算法在處理小規(guī)模數(shù)據(jù)集時(shí)效果不錯(cuò),但由于內(nèi)存限制、時(shí)間復(fù)雜度和數(shù)據(jù)復(fù)雜度各方面的影響,導(dǎo)致這些算法處理大規(guī)模數(shù)據(jù)集時(shí)的時(shí)間復(fù)雜度較高。因此,如何提高構(gòu)造決策樹的速度就顯得至關(guān)重要。
發(fā)明內(nèi)容
本發(fā)明的目的是提供基于加權(quán)皮爾遜相關(guān)系數(shù)并結(jié)合特征篩選的分類算法,具有能夠有效地提高決策樹模型的分類準(zhǔn)確率的特點(diǎn)。
本發(fā)明所采用的技術(shù)方案是,基于加權(quán)皮爾遜相關(guān)系數(shù)并結(jié)合特征篩選的分類算法,具體按照以下步驟實(shí)施:
步驟1、對(duì)包含類別數(shù)目為m的類別集合C={c1,c2,...cm},m=1,2,3...m,特征數(shù)為n的特征集F={f1,f2,f3,...fn},n=1,2,3,...n的數(shù)據(jù)集進(jìn)行預(yù)處理;
步驟2、對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)集使用IMPROVE_FCBF算法特征篩選;
步驟3、將經(jīng)過特征篩選后的數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);
步驟4、在訓(xùn)練集上使用基于加權(quán)皮爾遜相關(guān)系數(shù)的決策樹分類方法構(gòu)造決策樹模型;
步驟5、使用建立的決策樹模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,并使用準(zhǔn)確率、召回率、宏觀F1以及構(gòu)造決策樹所需時(shí)間作為評(píng)估指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。
本發(fā)明的特點(diǎn)還在于:
步驟1中預(yù)處理具體為,首先對(duì)數(shù)據(jù)集中的連續(xù)型特征值使用等寬法進(jìn)行離散化處理;接著將字符串型特征值轉(zhuǎn)換為標(biāo)稱數(shù)值型;然后將缺失特征值使用眾數(shù)補(bǔ)全;最后將數(shù)據(jù)集中的字符串類別值轉(zhuǎn)換為標(biāo)稱數(shù)值型。
步驟2具體按照以下步驟實(shí)施:
步驟2.1、初始化Slist為空集;
步驟2.2、計(jì)算每個(gè)特征fi(i=1,…,n)與類別C之間對(duì)稱不確定性SU(fi,C)值,以及每?jī)蓚€(gè)特征之間的對(duì)稱不確定性度量SU(fi,fj)(i,j=1,…,n且i≠j);計(jì)算兩個(gè)變量X和Y的SU值的公式如下所示:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110774460.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:風(fēng)控預(yù)警方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 下一篇:電動(dòng)汽車充電設(shè)備的故障診斷方法、裝置及存儲(chǔ)介質(zhì)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種適用于風(fēng)電出力的電力系統(tǒng)調(diào)峰計(jì)算方法
- 基于聶曼-皮爾遜準(zhǔn)則的SKIP模式快速選擇方法
- 一種水文變量設(shè)計(jì)值的確定方法及裝置
- 基于皮爾遜相關(guān)系數(shù)算法的臺(tái)區(qū)相位識(shí)別方法
- 一種基于皮爾遜系數(shù)的電弧模型校正方法
- 一種湖泊最低生態(tài)水位計(jì)算方法
- 一種基于皮爾遜系數(shù)的航天器相關(guān)遙測(cè)參數(shù)查找方法
- 一種臺(tái)區(qū)戶變關(guān)系識(shí)別方法及相關(guān)裝置
- 振動(dòng)異常定位方法及裝置
- 一種基于改進(jìn)皮爾遜相關(guān)系數(shù)的低壓臺(tái)區(qū)拓?fù)湫r?yàn)方法
- 根據(jù)空間相關(guān)與時(shí)間相關(guān)的組合來檢測(cè)信號(hào)中的噪聲的電子設(shè)備、運(yùn)行電子設(shè)備的方法、和計(jì)算機(jī)程序產(chǎn)品
- 可擴(kuò)展編碼裝置和可擴(kuò)展編碼方法
- 相關(guān)系數(shù)矩陣的生成方法及裝置
- 處理接收的數(shù)字化信號(hào)的方法和移動(dòng)無線電通信終端設(shè)備
- 一種基于相關(guān)性的脈搏波傳導(dǎo)時(shí)間獲取方法
- 相關(guān)變量識(shí)別方法和裝置
- 基于綜合相關(guān)系數(shù)的猶豫模糊集關(guān)聯(lián)方法
- 一種電信網(wǎng)絡(luò)管理性能數(shù)據(jù)關(guān)聯(lián)分析方法及系統(tǒng)
- 一種確定數(shù)據(jù)相關(guān)性的方法及裝置
- 一種基于相關(guān)系數(shù)熵的單示例單標(biāo)簽遠(yuǎn)程監(jiān)督實(shí)體關(guān)系標(biāo)注方法





