[發(fā)明專利]一種分布式關(guān)聯(lián)規(guī)則增量的更新方法及裝置在審
| 申請?zhí)枺?/td> | 201810010225.3 | 申請日: | 2018-01-05 |
| 公開(公告)號: | CN108197272A | 公開(公告)日: | 2018-06-22 |
| 發(fā)明(設(shè)計)人: | 馬威;蔣嚴(yán) | 申請(專利權(quán))人: | 北京搜狐新媒體信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F8/658 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 候選項 頻繁項集 數(shù)據(jù)集 算法 原始數(shù)據(jù)集 關(guān)聯(lián)規(guī)則 并行化處理 分布式存儲 分布式數(shù)據(jù) 最小支持度 并行化 支持度 更新 加載 過濾 轉(zhuǎn)換 申請 統(tǒng)計 | ||
1.一種分布式關(guān)聯(lián)規(guī)則增量的更新方法,其特征在于,包括:
加載原始數(shù)據(jù)集和新增數(shù)據(jù)集,分別將所述原始數(shù)據(jù)集和所述新增數(shù)據(jù)集轉(zhuǎn)換為彈性分布式數(shù)據(jù)集RDD,并分別對原始數(shù)據(jù)集RDD和新增數(shù)據(jù)集RDD進(jìn)行分布式存儲;
加載原始頻繁項集,將所述原始頻繁項集轉(zhuǎn)換為RDD,并對原始頻繁項集RDD進(jìn)行存儲;
對所述新增數(shù)據(jù)集RDD進(jìn)行并行化處理,得到新增頻繁項集;
根據(jù)所述原始頻繁項集RDD和所述新增頻繁項集RDD,生成第一候選項集和第二候選項集;
分別統(tǒng)計所述第一候選項集和所述第二候選項集的支持度,并過濾掉所述第一候選項集和所述第二候選項集中小于最小支持度的候選項集,得到最終頻繁項集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述加載原始數(shù)據(jù)集和新增數(shù)據(jù)集,分別將所述原始數(shù)據(jù)集和所述新增數(shù)據(jù)集轉(zhuǎn)換為彈性分布式數(shù)據(jù)集RDD,并分別對原始數(shù)據(jù)集RDD和新增數(shù)據(jù)集RDD進(jìn)行分布式存儲,包括:
通過SparkSQL分別讀取原始數(shù)據(jù)集和新增數(shù)據(jù)集;
分別將所述原始數(shù)據(jù)集和所述新增數(shù)據(jù)集轉(zhuǎn)換為RDD;
分別對原始數(shù)據(jù)集RDD和新增數(shù)據(jù)集RDD進(jìn)行去重處理,并分別得到所述原始數(shù)據(jù)集RDD去重后的數(shù)據(jù)量和所述新增數(shù)據(jù)集RDD去重后的數(shù)據(jù)量;
設(shè)置分區(qū)數(shù),根據(jù)所述分區(qū)數(shù)和所述原始數(shù)據(jù)集RDD去重后的數(shù)據(jù)量將所述原始數(shù)據(jù)集RDD分布式存儲到Spark集群內(nèi)存中的各個分區(qū)中,并根據(jù)所述分區(qū)數(shù)和所述新增數(shù)據(jù)集RDD去重后的數(shù)據(jù)量將所述新增數(shù)據(jù)集RDD分布式存儲到Spark集群內(nèi)存中的各個分區(qū)中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述新增數(shù)據(jù)集RDD進(jìn)行并行化處理,得到新增頻繁項集,包括:
提取每個分區(qū)中所述新增數(shù)據(jù)集RDD中的1-項候選項集;
對每個所述分區(qū)中所述新增數(shù)據(jù)集中的1-項候選項集進(jìn)行去重處理,并過濾掉小于所述最小支持度的項集,得到所述新增數(shù)據(jù)集中的1-頻繁項集;
在每個所述分區(qū)中根據(jù)預(yù)設(shè)關(guān)聯(lián)規(guī)則的頻繁項集的挖掘算法,生成所述新增數(shù)據(jù)集中除所述1-頻繁項集之外的所有K-頻繁項集,K>2;
根據(jù)每個所述區(qū)分中所述1-頻繁項集和所有K-頻繁項集,生成新增頻繁項集。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述原始頻繁項集RDD和所述新增頻繁項集RDD,生成第一候選項集和第二候選項集,包括:
對所述原始頻繁項集RDD和所述新增頻繁項集RDD進(jìn)行交集運算,得到第一頻繁項集;
對所述原始頻繁項集RDD和所述第一頻繁項集進(jìn)行差集運算,得到第一候選項集,并對所述新增頻繁項集RDD和所述第一頻繁項集進(jìn)行差集運算,得到第二候選項集。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別統(tǒng)計所述第一候選項集和所述第二候選項集的支持度,并過濾掉所述第一候選項集和所述第二候選項集中小于最小支持度的候選項集,得到最終頻繁項集,包括:
將所述第一候選項集轉(zhuǎn)換為第一廣播變量,并將所述第二候選項集轉(zhuǎn)換為第二廣播變量;
統(tǒng)計所述第一廣播變量中每個候選項集在所述新增數(shù)據(jù)集RDD中存在的記錄數(shù),得到所述第一候選項集的支持度,并統(tǒng)計所述第二廣播變量中每個候選項集在所述原始數(shù)據(jù)集RDD中存在的記錄數(shù),得到所述第二候選項集的支持度;
分別過濾掉所述第一候選項集和所述第二候選項集中小于所述最小支持度的項集,得到第二頻繁項集和第三頻繁項集;
合并所述第一頻繁項集、所述第二頻繁項集和所述第三頻繁項集,得到最終頻繁項集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狐新媒體信息技術(shù)有限公司,未經(jīng)北京搜狐新媒體信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810010225.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于總量控制的頻繁項集數(shù)據(jù)挖掘方法
- 頻繁項集挖掘方法
- 一種關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘裝置
- 一種基于區(qū)間映射求交的快速頻繁模式挖掘方法及系統(tǒng)
- 一種文本數(shù)據(jù)集正負(fù)關(guān)聯(lián)規(guī)則挖掘方法及裝置
- 一種數(shù)據(jù)挖掘方法及相關(guān)設(shè)備
- 一種數(shù)據(jù)挖掘方法及裝置
- 一種頻繁項集的挖掘方法、裝置、存儲介質(zhì)和電子設(shè)備
- 一種閉項集及生成子挖掘方法及裝置
- 面向傳感數(shù)據(jù)的多概率閾值頻繁項集挖掘方法及裝置
- 數(shù)據(jù)集及數(shù)據(jù)集“異或”的DMA傳送
- 數(shù)據(jù)處理的方法和系統(tǒng)
- 鏈接數(shù)據(jù)集
- 數(shù)據(jù)處理方法及其設(shè)備
- VR視頻轉(zhuǎn)碼方法及裝置
- 數(shù)據(jù)匹配方法以及裝置
- 一種非平衡數(shù)據(jù)集的分類方法
- 處理數(shù)據(jù)的方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 基于數(shù)據(jù)傾斜的關(guān)聯(lián)查詢方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實體識別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)





