[發(fā)明專利]一種基于鄰域條件互信息的交互特征選擇方法在審
| 申請?zhí)枺?/td> | 202110305125.5 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN112860819A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 陳紅梅;萬繼紅;李天瑞;羅川;胡節(jié) | 申請(專利權(quán))人: | 西南交通大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N5/00 |
| 代理公司: | 成都盈信專利代理事務(wù)所(普通合伙) 51245 | 代理人: | 張澎 |
| 地址: | 611756 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 鄰域 條件 互信 交互 特征 選擇 方法 | ||
1.一種基于鄰域條件互信息的交互特征選擇方法,首先,針對不同的數(shù)據(jù)類型,利用HCOM距離函數(shù)確定每個特征的鄰域關(guān)系,依據(jù)多鄰域半徑集計算每個特征的鄰域相似關(guān)系矩陣;其次,利用鄰域信息探究特征之間的關(guān)聯(lián)性,包含特征與類之間的相關(guān)性,特征之間的冗余性和交互性;基于這種關(guān)聯(lián)性,一種最大相關(guān)性,最小冗余性和最大交互性MRmRMI的特征重要性的評價函數(shù)被構(gòu)建;利用該評價函數(shù)對特征的重要性進行評分以獲得一個對分類貢獻從大到小的一個有序的特征序列;最后,通過在不同分類器上的測試選擇出最終的約簡特征子集,該特征子集即為所求最佳平均分類性能所對應(yīng)的特征子集序列;包括以下主要操作步驟:
步驟1:混合數(shù)據(jù)預(yù)處理
給定一個鄰域決策系統(tǒng)NDS=(U,F∪D,V,f,δ),其中,論域U是一個大小為n的樣本集,記為U={x1,x2,…,xn};F是一個大小為m的特征集,記為F={f1,f2,…,fm};D=jp0potd是一個單決策類;V是特征的值域并表示為其中為特征在所有樣本上取值的集合;f:U×(F∪D)→V是一個信息函數(shù),其為每個對象分配屬性值;δ是一個鄰域參數(shù)。
由異構(gòu)切比雪夫重疊度量HCOM的距離函數(shù)在特征上確定樣本的鄰域相似關(guān)系針對所有特征的多鄰域半徑集被計算為:
其中,
所有樣本關(guān)于特征取值的標準差,參數(shù)∈用于調(diào)節(jié)特征的鄰域半徑,該參數(shù)的取值取決于不同數(shù)據(jù)集中不同特征值的分布特性;論域U上的相似關(guān)系矩陣被獲得,其中為定義在特征上的一個距離函數(shù);
步驟2:特征關(guān)聯(lián)性分析和定義
特征的關(guān)聯(lián)性被劃分為:(1)特征與類之間的相關(guān)性;(2)類獨立的成對特征冗余性;(3)類依賴的成對特征交互性;具體分析和處理過程如下:
2-1)特征與類之間的相關(guān)性度量
給定一個鄰域決策系統(tǒng)NDS=(U,F∪D,V,f,δ),是已選特征子集,是當前候選特征,則與d之間的鄰域互信息衡量特征與類之間的相關(guān)性并將其定義為:
其中,和δd(xi)分別表示xi在特征和d上的鄰域;則表示xi在組合特征上的鄰域;
最相關(guān)的特征具有最大的互信息,這種特征選擇策略被稱為最大相關(guān)準則(Max-Relevance,MR),將其形式化為:
利用該MR準則可以得到特征與類之間相關(guān)性的降序排序;
在特征選擇的初始階段,約簡已選特征子集為空,即具有最大相關(guān)性的特征fs被選為已選特征子集中的第一個特征Red={fs};
2-2)類獨立的成對特征冗余性度量
鄰域互信息被引入以衡量當前候選特征和已選特征fs之間的冗余性:
給定一個鄰域決策系統(tǒng)NDS=(U,F∪D,V,f,δ),是當前候選特征,fs∈Red是已選特征,則與fs之間類獨立的成對冗余性定義為:
其中,和分別表示xi在特征和fs上的鄰域;則表示xi在組合特征上的鄰域;
為了去除特征子集中的冗余特征,最小冗余準則(min-Redundancy,mR)被提出并表示為:
2-3)類依賴的成對特征交互性度量
將條件互信息引入鄰域粗糙集中以衡量特征之間的這種交互性:
給定一個鄰域決策系統(tǒng)NDS=(U,F∪D,V,f,δ),是當前候選特征,剩余候選特征中的特征,在已知的條件下,則與d之間類獨立的成對交互性定義為:
其中,和分別表示xi在和上的鄰域;
最大交互準則(Max-Interaction,MI)被提出并表示為:
步驟3:特征重要性評價函數(shù)
依據(jù)步驟2所呈現(xiàn)的特征關(guān)聯(lián)性度量,具有最大相關(guān)性,最小冗余性和最大交互性的特征期待被選擇;據(jù)此,構(gòu)建最大相關(guān)最小冗余最大交互MRmRMI的特征重要性評價函數(shù)如下:
其中,
該MRmRMI函數(shù)被用來衡量一個特征或特征子集對分類的有用程度,通過對其進行評分以獲得一個對分類貢獻從大到小的一個有序的特征序列;
步驟4:獲取最終的最佳特征子集Redbest
利用MRmRMI函數(shù)迭代選擇出具有最大特征重要性取值的特征得到一個關(guān)于特征重要性的有序序列Red;依序遞增地對該有序序列用Matlab中不同的分類器進行性能測試;所獲最高分類精度值所對應(yīng)的有序特征子集即為最終的最佳特征子集Redbest。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南交通大學,未經(jīng)西南交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110305125.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理條件監(jiān)視系統(tǒng)、生理條件傳感器和生理條件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對抗網(wǎng)絡(luò)





