[發明專利]一種基于中高位樣本的頻繁項集數據挖掘方法在審
| 申請號: | 202010071649.8 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111324636A | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 柴明亮;郭慶濤;高冰;賈吉祥;唐雪峰;康偉;朱曉雷;康磊;趙成林;彭春霖 | 申請(專利權)人: | 鞍鋼股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 鞍山嘉訊科技專利事務所(普通合伙) 21224 | 代理人: | 周長星 |
| 地址: | 114000 *** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 高位 樣本 頻繁 集數 挖掘 方法 | ||
1.一種基于中高位樣本的頻繁項集數據挖掘方法,其特征在于,包括以下步驟:
(1)局部樣本中位項集和高位項集及平均支持度計算
計算每個局部樣本一項集支持度,按照從高到低排列,生成每個樣本中位項集表和高位項集表,每個樣本的中位項集平均支持度IW1i,i代表樣本序號,每個樣本的高位項集平均支持度GW1j,j代表樣本序號;
(2)局部樣本方差的計算
根據公式σ=(X1-M)2+(X2-M)2+.....+(Xn-M)2計算局部樣本的方差;
(3)局部樣本包含:如果出現IW1i=IW1j且GW1i=GW1j且σi=σj,i、j為樣本序號,則認定樣本則樣本Si淘汰指數增加1;
(4)淘汰樣本:根據樣本淘汰指數,最高者進入淘汰;
(5)總體數據樣本頻繁一項集生成
重新組合數據樣本,根據總體數據樣本計算候選一項集C1的支持度及平均支持度ZS1確定頻繁一項集L1,L1數量計作M1;
(6)總體數據樣本頻繁K項集生成
重新組合數據樣本,第k步,根據k-1步頻繁的k-1項集Lk-1按照Apriori_gen產生后選的k項集Ck集,根據總體數據樣本,計算候選一項集Ck的支持度及平均支持度ZSk確定頻繁一項集Lk,Lk數量計作Mk;
其中:
中位項集:按照支持度從高到低依次排列,去掉前三位和后三位,剩余為中位項集;
高位項集:按照支持度從高到低依次排列,前三位為高位;
方差:表征樣本的離散程度,σ=(X1-M)2+(X2-M)2+.....+(Xn-M)2,其中Xi為樣本,M為樣本均值,σ為樣本方差;
淘汰指數:如果出現IW1i=IW1j且GW1i=GW1j且σi=σj,i、j為樣本序號,則認定樣本則樣本Si淘汰指數增加1,樣本初始淘汰指數為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鞍鋼股份有限公司,未經鞍鋼股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071649.8/1.html,轉載請聲明來源鉆瓜專利網。





