[發(fā)明專利]一種基于Spark平臺的不確定數(shù)據(jù)集頻繁項挖掘方法有效
| 申請?zhí)枺?/td> | 201810212000.6 | 申請日: | 2018-03-15 |
| 公開(公告)號: | CN108509531B | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計)人: | 丁家滿;楊陽 | 申請(專利權(quán))人: | 昆明理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 spark 平臺 不確定 數(shù)據(jù) 頻繁 挖掘 方法 | ||
1.一種基于Spark平臺的不確定數(shù)據(jù)集頻繁項挖掘方法,其特征在于:
(1)將原始數(shù)據(jù)文件按照默認塊大小分組,其中默認塊大小為128M,分成多個組,每組對應(yīng)一個數(shù)據(jù)集,對這些數(shù)據(jù)集中的各個數(shù)據(jù)項進行預(yù)處理,生成不確定數(shù)據(jù)集;
(2)讀取步驟(1)所述的不確定數(shù)據(jù)集,設(shè)定最小閾值,對每組不確定數(shù)據(jù)集中的各數(shù)據(jù)項進行最高概率權(quán)重值的計算;
(3)在每組數(shù)據(jù)集中分別構(gòu)建UWPFP-tree,其中UWPFP-tree為基于FP-growth算法改進的頻繁模式樹,并計算出局部數(shù)據(jù)項集的最高概率權(quán)重值;
具體包括以下步驟:
(21)建立UWPFP-tree的根節(jié)點Null;
(22)掃描步驟(1)所述的不確定數(shù)據(jù)集中的事務(wù);
(23)掃描事務(wù)中的數(shù)據(jù)項,從左到右沿樹的根節(jié)點往下遍歷;
(24)判斷樹中是否存在與當前遍歷到的數(shù)據(jù)項相同的結(jié)點,是則執(zhí)行步驟(25);否則執(zhí)行步驟(26);
(25)計算當前項的maxwp(tn),maxwp(tn)并累加到相同的節(jié)點上,同時計算并更新當前項所有超集的maxwp(tn),然后轉(zhuǎn)至步驟(27);
(26)建立新的分支,計算當前項的maxwp(tn),同時計算當前項所有超集的maxwp(tn),其中計算當前項和當前項所有超集的maxwp(tn)的過程同步驟(2)中對每組不確定數(shù)據(jù)集中的各數(shù)據(jù)項進行最高概率權(quán)重值的計算過程一樣,然后轉(zhuǎn)至步驟27);
(27)判斷所有的事務(wù)是否掃描完畢,是則執(zhí)行步驟(28);否則返回步驟(23);
(28)程序結(jié)束;
(4)對局部數(shù)據(jù)項集進行整合,得到完整的多項集;
(5)將整合后的多項集的最高概率權(quán)重值和設(shè)定的最小閾值進行對比,篩選出初始頻繁項集;
(6)對初始頻繁項集分組,計算初始頻繁項集的期望權(quán)重值,將初始頻繁項集的期望權(quán)重值和預(yù)設(shè)的最低閾值進行對比,篩選并匯總出最終頻繁項集。
2.根據(jù)權(quán)利要求1所述的基于Spark平臺的不確定數(shù)據(jù)集頻繁項挖掘方法,其特征在于:
所述步驟(2)中的設(shè)定最小閾值,對每組數(shù)據(jù)集中的各數(shù)據(jù)項進行最高概率權(quán)重值的計算,具體包括以下步驟:
(11)設(shè)I={i1,i2,......,im}是一個有m個數(shù)據(jù)項的集合,W={w(i1),w(i2),......,w(im)}是對應(yīng)各個數(shù)據(jù)項的權(quán)重集,不確定事務(wù)集為T={t1,t2,......,tn},p(im,tn)是事務(wù)tn中im數(shù)據(jù)項的生存概率,最小閾值為ε×|D|,其中|D|是原不確定數(shù)據(jù)集中事務(wù)的個數(shù),ε是0到1之間的任意實數(shù),計算每個事務(wù)的最高概率值,并用maxp(tn)表示:
maxp(tn)=max{p(i1,tn),......,p(im,tn)}; (1)
(12)計算每個事務(wù)的最高權(quán)重值,并用maxw(tn)表示:
maxw(tn)=max{w(i1,tn),......,w(im,tn)}; (2)
(13)計算每個事務(wù)的最高概率值,并用maxwp(tn)表示:
maxwp(tn)=maxp(tn)×maxw(tn); (3)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810212000.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品





