[發明專利]一種基于互信息的區間數據的屬性選擇方法在審
| 申請號: | 201410546323.0 | 申請日: | 2014-10-15 |
| 公開(公告)號: | CN104317861A | 公開(公告)日: | 2015-01-28 |
| 發明(設計)人: | 劉琴;朱宏明;楊筱雯;王靜 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海光華專利事務所 31219 | 代理人: | 余明偉 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 互信 區間 數據 屬性 選擇 方法 | ||
1.一種基于互信息的區間數據的屬性選擇方法,藉由多臺服務器及客戶端構建的計算機系統中,應用于一區間數據集中,所述區間數據集包括n個樣本數據,每一個樣本數據具有m個屬性列和1個目標屬性列,其中,n,m為大于1的正整數,其特征在于,所述基于互信息的區間數據的屬性選擇方法包括:
計算n個樣本數據中任一屬性列及目標屬性列的信息熵,并將所述n個樣本數據中的任一屬性列拆分成屬性列上限數據和屬性列下限數據,和將所述目標屬性列拆分成目標屬性列上限數據和目標屬性列下限數據;
計算n個樣本數據中任一屬性列與所述目標屬性列的聯合熵;
根據計算得到的n個樣本數據中任一屬性列及目標屬性列的信息熵及n個樣本數據中任一屬性列與所述目標屬性列的聯合熵,計算n個樣本數據中任一屬性列與所述目標屬性列的互信息值,及屬性列之間的互信息值;
根據計算得到的互信息值進行屬性選擇,將n個樣本數據中m個屬性列按照屬性重要度排序,并將排序后的屬性列分別置于屬性子集;其中,所述屬性子集為m個,包括第一屬性子集,第二屬性子集,…,第m屬性子集;所述第一屬性子集包括第一屬性列,所述第二屬性子集包括第一屬性列和第二屬性列,…,所述第m屬性子集包括第一屬性列、第二屬性列、第m屬性列;所述第一屬性列、第二屬性列、第m屬性列是按照屬性重要度排序的。
根據屬性評估指標評估每一個屬性子集以獲取最優屬性子集。
2.根據權利要求1所述的基于互信息的區間數據的屬性選擇方法,其特征在于:所述n個樣本數據中的任一屬性列的信息熵為H(n個樣本數據中任一屬性列),所述n個樣本數據中任一屬性列與所述目標屬性列的聯合熵為H(n個樣本數據中任一屬性列,目標屬性列),所述目標屬性列的信息熵為H(目標屬性列),所述n個樣本數據中的任一屬性列的信息熵的計算公式為:
H(任一屬性列)=H(屬性列上限數據,屬性列下限數據);
所述目標屬性列的信息熵的計算公式為:
H(目標屬性列)=H(目標屬性列上限數據,目標屬性列下限數據)。
3.根據權利要求2所述的基于互信息的區間數據的屬性選擇方法,其特征在于:n個樣本數據中任一屬性列與所述目標屬性列的聯合熵為H(n個樣本數據中任一屬性列,目標屬性列),H(n個樣本數據中任一屬性列,目標屬性列)的計算公式為:
H(n個樣本數據中任一屬性列,目標屬性列)=H(屬性列上限數據,屬性列下限數據,目標屬性列上限數據,目標屬性列下限數據)。
4.根據權利要求2所述的基于互信息的區間數據的屬性選擇方法,其特征在于:n個樣本數據中任一屬性列與所述目標屬性列的互信息值為I(n個樣本數據中任一屬性列,目標屬性列),I(n個樣本數據中任一屬性列,目標屬性列)的計算公式為:
I(n個樣本數據中任一屬性列,目標屬性列)=H(任一屬性列)+H(目標屬性列)-H(n個樣本數據中任一屬性列,目標屬性列)。
5.根據權利要求1所述的基于互信息的區間數據的屬性選擇方法,其特征在于:計算n個樣本數據中任一屬性列與所述目標屬性列的互信息值的步驟包括:
循環計算n個樣本數據的m個屬性列中每一個屬性列與所述目標屬性列的互信息值;獲取最大互信息值;
首屬性選擇。
6.根據權利要求5所述的基于互信息的區間數據的屬性選擇方法,其特征在于:所述首屬性選擇為:
提取能使所述互相信息值最大的第一屬性列,將提取出來的所述第一屬性列置于所述第一屬性子集,并更新所述互信息的區間數據集。
7.根據權利要求5所述的基于互信息的區間數據的屬性選擇方法,其特征在于:首屬性選擇后繼續執行以下步驟:
循環計算第k次更新后的互信息的區間數據集中任一屬性列與所述第k屬性子集中的k個屬性列中任一屬性列之間的互信息值,并將第k次更新后的互信息的區間數據集中所有屬性列與所述第k屬性子集中的k個屬性列任一屬性列之間的互信息值進行比較,獲取能使互信息值最大的第k次更新后的互信息的區間數據集中的屬性列,則將該屬性列從所述第k-1次更新后的互信息的區間數據集提取出來置于所述第k屬性子集,繼續更新互信息的區間數據集;其中,2≤k≤m。
8.根據權利要求7所述的基于互信息的區間數據的屬性選擇方法,其特征在于:所述獲取能使互信息值最大的第k次更新后的互信息的區間數據集中的屬性列滿足一屬性最大準則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410546323.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種伸縮天線對講機
- 下一篇:移動智能設備長圖片瀏覽方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





