[發明專利]一種基于項集熵的數據挖掘方法在審
| 申請號: | 201611247714.8 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106802936A | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 鄧珍榮;張晶晶;朱益立;龔敏;黃文明 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 楊立 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 項集熵 數據 挖掘 方法 | ||
1.一種基于項集熵的數據挖掘方法,其特征在于,該方法包括以下步驟:
步驟1:對采集的數據進行預處理,轉化為同緯度的事務數據集存放到數據庫;
步驟2:檢索數據庫,獲取單項集和多項集的支持度;
步驟3:根據項集熵計算單項集的權值,根據單項集的權值計算單項集的加權支持度;
步驟4:去除加權支持度不滿足支持度閾值的單項集,得到加權頻繁1項集;
步驟5:根據單項集權值計算多項集的權值,根據多項集的權值計算多項集的加權支持度;
步驟6:去除加權支持度不滿足支持度閾值的多項集,得到加權頻繁多項集;
步驟7:根據滿足置信度閾值的加權頻繁項集的加權支持度和置信度得到改進關聯規則。
2.根據權利要求1所述一種基于項集熵的數據挖掘方法,其特征在于,步驟1包括:
步驟1.1:異常數據清除、錯誤糾正及重復數據清除;
步驟1.2:將數據通過數據概化轉換成適用于數據挖掘的形式;
步驟1.3:將數據按條數存儲在數據庫中并編號。
3.根據權利要求1所述一種基于項集熵的數據挖掘方法,其特征在于,步驟2包括:
步驟2.1:遍歷數據庫;
步驟2.2:統計各個項集的出現次數;
步驟2.3:按出現次數從大到小的順序生成單項集臨時表;
步驟2.4:根據臨時表中各個項集的出現次數與總事務數據集數的比值得到各個項集支持度。
4.根據權利要求1至3中任一權利要求所述一種基于項集熵的數據挖掘方法,其特征在于,所述步驟3包括:
步驟3.1:根據信息熵的特性得到
其中,H(u)為項集熵,Pi表示單項集中字段i的重要性,在事務數據集中,項集I={I1,I2,…Im},Ii所擁有的權值為w(Ii)=H(Ii);
步驟3.2:根據支持度與權值的乘積得到單項集的加權支持度,項集I={I1,I2,…In},則I的加權支持度為:wsup(I)=w(I)·sup(I);
其中,sup(I)為I的支持度,w(I)為I的權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611247714.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頁面流暢度的測試方法和裝置
- 下一篇:Word文檔的轉換方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





