[發(fā)明專利]基于最大信息系數(shù)的特征選擇、分類方法及其裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410228055.8 | 申請(qǐng)日: | 2014-05-27 |
| 公開(公告)號(hào): | CN104050242B | 公開(公告)日: | 2018-03-27 |
| 發(fā)明(設(shè)計(jì))人: | 孫廣路;何勇軍;劉廣明 | 申請(qǐng)(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司11002 | 代理人: | 李迪 |
| 地址: | 150080 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 最大 信息 系數(shù) 特征 選擇 分類 方法 及其 裝置 | ||
1.一種基于最大信息系數(shù)的特征選擇方法,其特征在于,所述方法包括:
S1,基于互信息準(zhǔn)則將原始特征進(jìn)行排序,將相關(guān)度低于閾值的特征刪除,并將所述相關(guān)度高于閾值的特征形成初始特征子集;
S2,計(jì)算在所述初始特征子集中的特征之間的最大信息系數(shù);
S3,根據(jù)所述最大信息系數(shù),刪除所述初始特征子集中的冗余特征,得到低維特征子集;
所述步驟S3包括:
S31,選擇最大信息系數(shù)超過設(shè)定閾值的特征對(duì);
S32,將相互關(guān)聯(lián)的特征對(duì)組成冗余特征集合;
S33,選取每個(gè)冗余特征集合中貢獻(xiàn)度最大的特征作為子特征,并將所述每個(gè)冗余特征集合中的其他特征刪除;
假設(shè)一個(gè)特征對(duì)集合中有k個(gè)特征f1,f2......fk,其中特征fi和fj之間的MIC值為mij,且只保留mij>0.8的值,其他特征對(duì)之間的MIC值設(shè)置為0,如此會(huì)得到一個(gè)k×k的矩陣,其中元素只包含0和大于0.8的數(shù)值,矩陣如下:
對(duì)矩陣的每一列求和,得到一組數(shù)值M1,M2......Mk,其中的每一個(gè)值代表特征fi在特征對(duì)集合中的貢獻(xiàn)度;
S34,將每個(gè)所述冗余特征集合的子特征組成所述低維特征子集。
2.根據(jù)權(quán)利要求1所述的一種基于最大信息系數(shù)的特征選擇方法,其特征在于,所述步驟S1具體包括:
根據(jù)所述原始特征與類別之間的相關(guān)程度對(duì)所述原始特征進(jìn)行排序,并將相關(guān)程度低于閾值的特征刪除。
3.根據(jù)權(quán)利要求1所述的一種基于最大信息系數(shù)的特征選擇方法,其特征在于,所述步驟S2包括:
S21,將所述初始特征子集中的特征放置在二維坐標(biāo)系中;
S22,對(duì)所述二維坐標(biāo)系進(jìn)行多次網(wǎng)格劃分;
S23,計(jì)算在每次網(wǎng)格劃分下,每一塊網(wǎng)格中的特征之間的互信息值,計(jì)算每次網(wǎng)格劃分的最大互信息值,并建立最大互信息矩陣;
S24,通過最大互信息矩陣計(jì)算所述初始特征子集中的特征的最大信息系數(shù)。
4.根據(jù)權(quán)利要求3所述的一種基于最大信息系數(shù)的特征選擇方法,其特征在于,所述建立最大互信息矩陣包括:設(shè)定每次網(wǎng)格劃分的大小小于B,B為根據(jù)所述特征的數(shù)量設(shè)定的值,所述最大互信息矩陣的計(jì)算公式如下:
其中,M(D)i,j為所述最大互信息矩陣的第i行第j列的值,表示在不同的網(wǎng)格劃分條件下得到的最大互信息值,且i,j滿足0<i<B,0<j<B,i×j<B,I*(D,i,j)表示二維數(shù)據(jù)集D使用i*j網(wǎng)格劃分下的最大互信息。
5.一種基于權(quán)利要求1-4的任一項(xiàng)所述的特征選擇方法進(jìn)行數(shù)據(jù)分類的方法,其特征在于,所述方法包括:
S101,根據(jù)權(quán)利要求1-4的任一項(xiàng)所述的特征選擇方法對(duì)數(shù)據(jù)進(jìn)行選擇;
S102,將選擇后的數(shù)據(jù)通過訓(xùn)練形成模型;
S103,通過所述模型對(duì)待測(cè)數(shù)據(jù)進(jìn)行識(shí)別。
6.根據(jù)權(quán)利要求5所述的一種數(shù)據(jù)分類方法,其特征在于,
使用增量式支持向量機(jī)模型對(duì)所述選擇后的數(shù)據(jù)進(jìn)行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410228055.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 生成系數(shù)類型數(shù)據(jù)或系數(shù)數(shù)據(jù)的裝置、方法
- 串?dāng)_系數(shù)估計(jì)裝置和串?dāng)_系數(shù)估計(jì)方法
- 排放系數(shù)計(jì)算器與排放系數(shù)計(jì)算方法
- 摩擦系數(shù)估計(jì)設(shè)備和摩擦系數(shù)估計(jì)方法
- 吸隔音系數(shù)試樣及阻尼系數(shù)試樣取樣裝置
- 用于系數(shù)掃描的系數(shù)群及系數(shù)譯碼
- 導(dǎo)熱系數(shù)測(cè)量裝置以及導(dǎo)熱系數(shù)測(cè)量方法
- 一種PID參數(shù)自整定方法
- 變換系數(shù)計(jì)算裝置、變換系數(shù)計(jì)算方法及變換系數(shù)計(jì)算程序
- 導(dǎo)熱系數(shù)儀





