[發明專利]一種基于互信息的區間數據的屬性選擇方法在審

申請號：	201410546323.0	申請日：	2014-10-15
公開（公告）號：	CN104317861A	公開（公告）日：	2015-01-28
發明（設計）人：	劉琴;朱宏明;楊筱雯;王靜	申請（專利權）人：	同濟大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海光華專利事務所 31219	代理人：	余明偉
地址：	200092 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于互信區間數據屬性選擇方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于互信息的區間數據的屬性選擇方法，藉由多臺服務器及客戶端構建的計算機系統中，應用于一區間數據集中，所述區間數據集包括n個樣本數據，每一個樣本數據具有m個屬性列和1個目標屬性列，其中，n，m為大于1的正整數，其特征在于，所述基于互信息的區間數據的屬性選擇方法包括：

計算n個樣本數據中任一屬性列及目標屬性列的信息熵，并將所述n個樣本數據中的任一屬性列拆分成屬性列上限數據和屬性列下限數據，和將所述目標屬性列拆分成目標屬性列上限數據和目標屬性列下限數據；

計算n個樣本數據中任一屬性列與所述目標屬性列的聯合熵；

根據計算得到的n個樣本數據中任一屬性列及目標屬性列的信息熵及n個樣本數據中任一屬性列與所述目標屬性列的聯合熵，計算n個樣本數據中任一屬性列與所述目標屬性列的互信息值，及屬性列之間的互信息值；

根據計算得到的互信息值進行屬性選擇，將n個樣本數據中m個屬性列按照屬性重要度排序，并將排序后的屬性列分別置于屬性子集；其中，所述屬性子集為m個，包括第一屬性子集，第二屬性子集，…，第m屬性子集；所述第一屬性子集包括第一屬性列，所述第二屬性子集包括第一屬性列和第二屬性列，…，所述第m屬性子集包括第一屬性列、第二屬性列、第m屬性列；所述第一屬性列、第二屬性列、第m屬性列是按照屬性重要度排序的。

根據屬性評估指標評估每一個屬性子集以獲取最優屬性子集。

2.根據權利要求1所述的基于互信息的區間數據的屬性選擇方法，其特征在于：所述n個樣本數據中的任一屬性列的信息熵為H(n個樣本數據中任一屬性列)，所述n個樣本數據中任一屬性列與所述目標屬性列的聯合熵為H(n個樣本數據中任一屬性列，目標屬性列)，所述目標屬性列的信息熵為H(目標屬性列)，所述n個樣本數據中的任一屬性列的信息熵的計算公式為：

H(任一屬性列)＝H(屬性列上限數據，屬性列下限數據)；

所述目標屬性列的信息熵的計算公式為：

H(目標屬性列)＝H(目標屬性列上限數據，目標屬性列下限數據)。

3.根據權利要求2所述的基于互信息的區間數據的屬性選擇方法，其特征在于：n個樣本數據中任一屬性列與所述目標屬性列的聯合熵為H(n個樣本數據中任一屬性列，目標屬性列)，H(n個樣本數據中任一屬性列，目標屬性列)的計算公式為：

H(n個樣本數據中任一屬性列，目標屬性列)＝H(屬性列上限數據，屬性列下限數據，目標屬性列上限數據，目標屬性列下限數據)。

4.根據權利要求2所述的基于互信息的區間數據的屬性選擇方法，其特征在于：n個樣本數據中任一屬性列與所述目標屬性列的互信息值為I(n個樣本數據中任一屬性列，目標屬性列)，I(n個樣本數據中任一屬性列，目標屬性列)的計算公式為：

I(n個樣本數據中任一屬性列，目標屬性列)＝H(任一屬性列)+H(目標屬性列)－H(n個樣本數據中任一屬性列，目標屬性列)。

5.根據權利要求1所述的基于互信息的區間數據的屬性選擇方法，其特征在于：計算n個樣本數據中任一屬性列與所述目標屬性列的互信息值的步驟包括：

循環計算n個樣本數據的m個屬性列中每一個屬性列與所述目標屬性列的互信息值；獲取最大互信息值；

首屬性選擇。

6.根據權利要求5所述的基于互信息的區間數據的屬性選擇方法，其特征在于：所述首屬性選擇為：

提取能使所述互相信息值最大的第一屬性列，將提取出來的所述第一屬性列置于所述第一屬性子集，并更新所述互信息的區間數據集。

7.根據權利要求5所述的基于互信息的區間數據的屬性選擇方法，其特征在于：首屬性選擇后繼續執行以下步驟：

循環計算第k次更新后的互信息的區間數據集中任一屬性列與所述第k屬性子集中的k個屬性列中任一屬性列之間的互信息值，并將第k次更新后的互信息的區間數據集中所有屬性列與所述第k屬性子集中的k個屬性列任一屬性列之間的互信息值進行比較，獲取能使互信息值最大的第k次更新后的互信息的區間數據集中的屬性列，則將該屬性列從所述第k-1次更新后的互信息的區間數據集提取出來置于所述第k屬性子集，繼續更新互信息的區間數據集；其中，2≤k≤m。

8.根據權利要求7所述的基于互信息的區間數據的屬性選擇方法，其特征在于：所述獲取能使互信息值最大的第k次更新后的互信息的區間數據集中的屬性列滿足一屬性最大準則。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于同濟大學，未經同濟大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410546323.0/1.html，轉載請聲明來源鉆瓜專利網。