[發(fā)明專利]一種基于中高位樣本的頻繁項集數(shù)據(jù)挖掘方法在審
| 申請?zhí)枺?/td> | 202010071649.8 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111324636A | 公開(公告)日: | 2020-06-23 |
| 發(fā)明(設(shè)計)人: | 柴明亮;郭慶濤;高冰;賈吉祥;唐雪峰;康偉;朱曉雷;康磊;趙成林;彭春霖 | 申請(專利權(quán))人: | 鞍鋼股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 鞍山嘉訊科技專利事務(wù)所(普通合伙) 21224 | 代理人: | 周長星 |
| 地址: | 114000 *** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 高位 樣本 頻繁 集數(shù) 挖掘 方法 | ||
本發(fā)明涉及一種基于中高位樣本的頻繁項集數(shù)據(jù)挖掘方法,1)局部樣本中位項集和高位項集及平均支持度計算;2)局部樣本方差的計算;3)局部樣本包含:如果出現(xiàn)IW1i=IW1j且GW1i=GW1j且σi=σj,i、j為樣本序號,則認(rèn)定樣本則樣本Si淘汰指數(shù)增加1;4)淘汰樣本:根據(jù)樣本淘汰指數(shù),最高者進(jìn)入淘汰;5)總體數(shù)據(jù)樣本頻繁一項集生成;6)總體數(shù)據(jù)樣本頻繁K項集生成。本發(fā)明為一種新型的基于Apriori性質(zhì)的頻繁項集數(shù)據(jù)挖掘算法SMH(Sample Middle High)?Apriori算法。此算法應(yīng)用Apriori算法的基本思想,根據(jù)局部樣本的中間項集和高位項集的平均支持度大小及樣本方差,制定取舍原則,解決了經(jīng)典Apriori算法不能很好的兼顧局部最優(yōu)的不足。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種基于中高位樣本的頻繁項集數(shù)據(jù)挖掘方法。
背景技術(shù)
Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個步驟,第一步是通過迭代檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項集,即支持度不低于用戶設(shè)定的閾值的項集,第二步是利用頻繁項集構(gòu)造出滿足用戶最小置信度的規(guī)則,其中,挖掘和識別所有頻繁項集是該算法的核心,占據(jù)了整個計算量的大部分。Apriori算法運用頻繁項集的子集必然是頻繁項集的思想,通過已知的頻繁項集構(gòu)造更大的項集,并將其稱為候選頻繁項集,以后只計算后選項集的支持度。Apriori算法采用人為設(shè)定域值的方式,這樣就存在根據(jù)人的經(jīng)驗設(shè)定域值與實際的數(shù)據(jù)挖掘是否匹配的問題,近些年研究的重點是如何使得人為設(shè)定域值與實際的數(shù)據(jù)挖掘匹配,然而,對于Apriori算法不能很好的兼顧局部樣本數(shù)據(jù)的問題研究甚少,然而在實際的應(yīng)用中,Apriori算法能夠發(fā)現(xiàn)全局頻繁項集,但是局部樣本的頻繁項集卻不能夠被體現(xiàn),這樣的現(xiàn)象越來越多。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于中高位樣本的頻繁項集數(shù)據(jù)挖掘方法,解決了經(jīng)典Apriori算法不能很好的兼顧局部最優(yōu)的不足。
為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案實現(xiàn):
1.一種基于中高位樣本的頻繁項集數(shù)據(jù)挖掘方法,包括以下步驟:
(1)局部樣本中位項集和高位項集及平均支持度計算
計算每個局部樣本一項集支持度,按照從高到低排列,生成每個樣本中位項集表和高位項集表,每個樣本的中位項集平均支持度IW1i,i代表樣本序號,每個樣本的高位項集平均支持度GW1j,j代表樣本序號;
(2)局部樣本方差的計算
根據(jù)公式σ=(X1-M)2+(X2-M)2+.....+(Xn-M)2計算局部樣本的方差;
(3)局部樣本包含:如果出現(xiàn)IW1i=IW1j且GW1i=GW1j且σi=σj,i、j為樣本序號,則認(rèn)定樣本則樣本Si淘汰指數(shù)增加1;
(4)淘汰樣本:根據(jù)樣本淘汰指數(shù),最高者進(jìn)入淘汰;
(5)總體數(shù)據(jù)樣本頻繁一項集生成
重新組合數(shù)據(jù)樣本,根據(jù)總體數(shù)據(jù)樣本計算候選一項集C1的支持度及平均支持度ZS1確定頻繁一項集L1,L1數(shù)量計作M1;
(6)總體數(shù)據(jù)樣本頻繁K項集生成
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鞍鋼股份有限公司,未經(jīng)鞍鋼股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071649.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





