[發明專利]一種分布式關聯規則增量的更新方法及裝置在審
| 申請號: | 201810010225.3 | 申請日: | 2018-01-05 |
| 公開(公告)號: | CN108197272A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 馬威;蔣嚴 | 申請(專利權)人: | 北京搜狐新媒體信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F8/658 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選項 頻繁項集 數據集 算法 原始數據集 關聯規則 并行化處理 分布式存儲 分布式數據 最小支持度 并行化 支持度 更新 加載 過濾 轉換 申請 統計 | ||
本申請提供了一種分布式關聯規則增量的更新方法,加載原始數據集和新增數據集,分別將其轉換為彈性分布式數據集RDD,并分別對原始數據集RDD和新增數據集RDD進行分布式存儲;對新增數據集RDD進行并行化處理,得到新增頻繁項集;根據原始頻繁項集RDD和新增頻繁項集RDD,生成第一候選項集和第二候選項集;分別統計所述第一候選項集和所述第二候選項集的支持度,并過濾掉第一候選項集和所述第二候選項集中小于最小支持度的候選項集,得到最終頻繁項集。減少算法I/O時間以及簡化頻繁項集的產生過程,實現算法的并行化,從而提高算法的執行效率。
技術領域
本發明涉及數據挖掘技術領域,更具體的,涉及一種分布式關聯規則增量的更新方法及裝置。
背景技術
關聯規則一直是數據挖掘領域的研究重點,通過關聯規則能夠發現隱藏在海量數據集中有價值的聯系,這種聯系通過關聯規則進行表示。
在關聯規則挖掘的過程中,訓練數據集可能增加或減少,以及出現最小支持度與最小置信度的調整等情況。針對最小支持度和最小置信度不變情況,基于初始建模數據添加增量數據,關聯規則增量更新算法FUP對新的建模數據進行增量挖掘。
由于FUP算法設計之初主要面向單機版設計,數據的I/O次數是一個瓶頸,FUP算法將掃描合并后的訓練數據集K+1次,從而對候選項集進行模式匹配,但是原始數據集一般都很大,對原始數據集進行K+1次掃描,算法的執行效率明顯不高。而為了盡可能減少數據庫掃描次數,FUP算法設計的非常復雜。
發明內容
有鑒于此,本發明提供了一種分布式關聯規則增量的更新方法及裝置,旨在減少算法I/O時間以及簡化頻繁項集的產生過程,實現算法的并行化,從而提高算法的執行效率。
為了實現上述發明目的,本發明提供的具體技術方案如下:
一種分布式關聯規則增量的更新方法,包括:
加載原始數據集和新增數據集,分別將所述原始數據集和所述新增數據集轉換為彈性分布式數據集RDD,并分別對原始數據集RDD和新增數據集RDD進行分布式存儲;
加載原始頻繁項集,將所述原始頻繁項集轉換為RDD,并對原始頻繁項集RDD進行存儲;
對所述新增數據集RDD進行并行化處理,得到新增頻繁項集;
根據所述原始頻繁項集RDD和所述新增頻繁項集RDD,生成第一候選項集和第二候選項集;
分別統計所述第一候選項集和所述第二候選項集的支持度,并過濾掉所述第一候選項集和所述第二候選項集中小于最小支持度的候選項集,得到最終頻繁項集。
優選的,所述加載原始數據集和新增數據集,分別將所述原始數據集和所述新增數據集轉換為彈性分布式數據集RDD,并分別對原始數據集RDD和新增數據集RDD進行分布式存儲,包括:
通過SparkSQL分別讀取原始數據集和新增數據集;
分別將所述原始數據集和所述新增數據集轉換為RDD;
分別對原始數據集RDD和新增數據集RDD進行去重處理,并分別得到所述原始數據集RDD去重后的數據量和所述新增數據集RDD去重后的數據量;
設置分區數,根據所述分區數和所述原始數據集RDD去重后的數據量將所述原始數據集RDD分布式存儲到Spark集群內存中的各個分區中,并根據所述分區數和所述新增數據集RDD去重后的數據量將所述新增數據集RDD分布式存儲到Spark集群內存中的各個分區中。
優選的,所述對所述新增數據集RDD進行并行化處理,得到新增頻繁項集,包括:
提取每個分區中所述新增數據集RDD中的1-項候選項集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狐新媒體信息技術有限公司,未經北京搜狐新媒體信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810010225.3/2.html,轉載請聲明來源鉆瓜專利網。





