[發(fā)明專利]基于對稱不確定性和信息交互增益的特征選擇方法在審
| 申請?zhí)枺?/td> | 201711086392.8 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107992722A | 公開(公告)日: | 2018-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 林曉惠;任衛(wèi)杰;蘇本哲 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24;G06F19/28 |
| 代理公司: | 大連理工大學(xué)專利中心21200 | 代理人: | 溫福雪,侯明遠(yuǎn) |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 對稱 不確定性 信息 交互 增益 特征 選擇 方法 | ||
1.一種基于對稱不確定性和信息交互增益的特征選擇方法,其特征在于,步驟如下:
(1)衡量特征與類標(biāo)之間的關(guān)聯(lián)性
衡量特征與類標(biāo)之間關(guān)聯(lián)性的度量標(biāo)準(zhǔn)有很多,如互信息;由于互信息的取值易于傾向具有多值的變量,對稱不確定性改善了互信息的缺點(diǎn),實(shí)際上為互信息的歸一化表示,特征f與類標(biāo)C的對稱不確定性為:
式中MI(f;C)表示的是特征f和類標(biāo)C的互信息,H(x)表示變量x的信息熵;對稱不確定性的值域?yàn)閇0,1],取值越大代表特征與類標(biāo)的關(guān)聯(lián)性越大;
(2)衡量特征與特征之間的互補(bǔ)性
信息交互增益是互信息的概念在更高維度上的進(jìn)一步推廣,用于刻畫三個變量之間的相互依賴程度,可用于篩選具有互補(bǔ)性的特征;特征fi、fj以及類標(biāo)C之間的信息交互增益定義如下:
IG(fi;fj;C)=MI(fi,fj;C)-MI(fi;C)-MI(fj;C) (2)
與互信息不同,信息交互增益的取值可正可負(fù)也可以為零;如果IG(fi;fj;C)>0即MI(fi,fj;C)>MI(fi;C)+MI(fj;C),表明將fi和fj聯(lián)合所提供的信息量多于他們單獨(dú)所能夠提供的信息量之和,換言之,fi和fj具有互補(bǔ)性;如果IG(fi;fj;C)<0即MI(fi,fj;C)<MI(fi;C)+MI(fj;C),說明將fi和fj聯(lián)合所提供的信息量小于他們單獨(dú)所能夠提供的信息量之和,即fi和fj所提供的信息量有冗余的部分;如果IG(fi;fj;C)=0即MI(fi,fj;C)=MI(fi;C)+MI(fj;C),說明對于fi(fj)來說,fj(fi)的加入并不能使fi(fj)與C的關(guān)聯(lián)性得到改善,即二者相互獨(dú)立;
信息交互增益是由聯(lián)合互信息與互信息計(jì)算得到,因此也易傾向于選擇具有多值的變量,所以需要對其進(jìn)行歸一化處理,特征fi,fj與類標(biāo)C歸一化的信息交互增益定義如下:
當(dāng)0≤NIG(fi;fj;C)<0.5時,特征fi與特征fj具有冗余性,當(dāng)0.5<NIG(fi;fj;C)≤1時,特征fi與特征fj具有互補(bǔ)性;設(shè)特征集合為F,綜合考慮特征與類標(biāo)之間關(guān)聯(lián)性以及特征與特征之間互補(bǔ)性的特征評價函數(shù)為:
其中,n為F中與特征fi具有互補(bǔ)性的特征數(shù);
從該特征評價函數(shù)可以看出,與類標(biāo)之間具有強(qiáng)關(guān)聯(lián)性并且與當(dāng)前特征子集具有互補(bǔ)性的特征會被賦予較高的權(quán)重,而與類標(biāo)之間的關(guān)聯(lián)性較弱并且與當(dāng)前特征子集具有冗余性的特征會被賦予較低的權(quán)重;在對特征fi進(jìn)行評價時,當(dāng)前特征集合F中所有與fi具有互補(bǔ)性的特征均會對fi的權(quán)重計(jì)算產(chǎn)生影響,而生物信息數(shù)據(jù)通常維度較高,其中不乏噪音及與所研究問題無關(guān)的特征,這些特征的存在可能會使特征權(quán)重的計(jì)算產(chǎn)生偏差;因此在每一次迭代中,IG-RFE計(jì)算當(dāng)前特征集合F中特征的權(quán)重,刪除權(quán)重最小的|F|×deleteRatio個特征,重復(fù)此過程直到F為空集,保留迭代刪除過程中具有最高分類準(zhǔn)確率的特征集合;最先被刪除的特征為包含信息量最少的特征,隨著迭代的進(jìn)行,噪音逐漸被刪除,特征權(quán)重的計(jì)算逐步更加準(zhǔn)確;IG-RFE算法描述如下:
輸入:訓(xùn)練數(shù)據(jù)集D,其中特征集合記作F={f1,f2,…,fm},類標(biāo)集合記作C,特征迭代刪除比例deleteRatio;
過程:
輸出:所選特征集合S;
IG-RFE算法整體分為兩個階段,1-9為第一階段;首先初始化所選特征集合S為空集,最高分類準(zhǔn)確率為0,然后計(jì)算每個特征和類標(biāo)的對稱不確定性,對稱不確定性值為0的特征被認(rèn)為與類標(biāo)不具關(guān)聯(lián)性而刪除,最后計(jì)算每對特征之間的歸一化信息交互增益;10-20為第二階段,為特征子集尋優(yōu)階段;根據(jù)公式(4)計(jì)算特征權(quán)重,依次移除一定比例的權(quán)重較低的特征,使得特征權(quán)重的計(jì)算免受噪音特征的干擾而逐步趨于準(zhǔn)確,根據(jù)分類準(zhǔn)確率來評價特征集合的優(yōu)劣程度,最后輸出搜索到的最優(yōu)特征集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711086392.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 提供導(dǎo)頻或前導(dǎo)信號中ZADOFF-CHU序列的有限使用的設(shè)備、方法和計(jì)算機(jī)程序產(chǎn)品
- 確定定時不確定性的方法和裝置
- 一種結(jié)構(gòu)噪聲不確定性優(yōu)化系統(tǒng)及方法
- 一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法
- 一種基于QMU的顫振裕度評估方法
- 一種基于RSSI通信距離估計(jì)的不確定性分析方法
- 一種定量獲得三維礦床地質(zhì)模型不確定性的方法
- 一種降低和展現(xiàn)流式大數(shù)據(jù)不確定性的系統(tǒng)
- 一種數(shù)據(jù)聚類方法及裝置
- 一種考慮結(jié)構(gòu)參數(shù)不確定性的結(jié)構(gòu)系統(tǒng)隨機(jī)振動分析方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





