[發明專利]基于對稱不確定性和信息交互增益的特征選擇方法在審
| 申請號: | 201711086392.8 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107992722A | 公開(公告)日: | 2018-05-04 |
| 發明(設計)人: | 林曉惠;任衛杰;蘇本哲 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24;G06F19/28 |
| 代理公司: | 大連理工大學專利中心21200 | 代理人: | 溫福雪,侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對稱 不確定性 信息 交互 增益 特征 選擇 方法 | ||
技術領域
本發明屬于生物數據分析技術領域,是一種綜合考慮特征與類標之間關聯性以及特征與特征之間互補性的特征選擇方法。
背景技術
生物大數據中存在大量未知的重要信息,如何運用數據挖掘技術從海量的生物信息數據提取有用的知識,對于了解復雜的生命活動過程,促進新藥物的研發和疾病診斷方法的發現有著重大意義。
生物信息數據通常具有較高的維度,微陣列技術的進步已經產生了涉及數千特征的基因表達數據,這給傳統的數據分析技術帶來了挑戰,特征選擇算法作為一種經典的數據降維技術,能夠從高維數據中挖掘出與所研究問題真正相關的特征。生物信息數據的另外一個特點是數據中的特征之間往往存在著復雜的關聯關系,如冗余關系、互補關系等,特征之間的互補性尤其不容忽視。生物體本身就是一個復雜的系統,生物體內不同分子間相互關聯、相互作用,共同決定生命現象的本質。這就要求特征選擇算法在選擇特征的時候,既要考慮特征與類標之間的關聯性,又要考察特征與特征之間的互補性。對于現有的大部分特征選擇算法,盡管它們采用不同的特征評價準則,且表現形式也千差萬別,但它們都遵循著共同的選擇框架,即候選特征與類標之間的關聯性越大越好,與已選特征之間的冗余度越低越好,特征之間的互補性鮮為納入特征評價標準之中。
本發明中提出的方法IG-RFE將特征與類標之間的關聯性以及特征之間的互補性度量相結合,計算特征的區分能力,確定潛在的生物標志物。具體地,分別采用對稱不確定性和信息交互增益來衡量特征與類標之間的關聯性以及特征與特征之間的互補性,結合二者計算特征權重,同時采用特征后向迭代刪除技術移除權重較低的特征,減少噪音對特征權重計算的干擾。
發明內容
本發明的關鍵在于構造恰當的特征評價函數綜合評估特征與類標之間的關聯性以及特征與特征之間的互補性。
本發明的技術方案:
基于對稱不確定性和信息交互增益的特征選擇方法,步驟如下:
(1)衡量特征與類標之間的關聯性
衡量特征與類標之間關聯性的度量標準有很多,如互信息。由于互信息的取值易于傾向具有多值的變量,對稱不確定性(symmetric uncertainty)改善了互信息的缺點,實際上為互信息的歸一化表示,特征f與類標C的對稱不確定性為:
式中MI(f;C)表示的是特征f和類標C的互信息,H(x)表示變量x的信息熵。對稱不確定性的值域為[0,1],取值越大代表特征與類標的關聯性越大。
(2)衡量特征與特征之間的互補性
信息交互增益(interaction gain)是互信息的概念在更高維度上的進一步推廣,用于刻畫三個變量之間的相互依賴程度,可用于篩選具有互補性的特征。特征fi、fj以及類標C之間的信息交互增益定義如下:
IG(fi;fj;C)=MI(fi,fj;C)-MI(fi;C)-MI(fj;C) (2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711086392.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





