[發明專利]基于Hadoop的大數據關聯規則的挖掘方法在審
| 申請號: | 201910672220.1 | 申請日: | 2019-07-24 |
| 公開(公告)號: | CN110489448A | 公開(公告)日: | 2019-11-22 |
| 發明(設計)人: | 邢毓華;李明星 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/2458;G06F17/16 |
| 代理公司: | 61214 西安弘理專利事務所 | 代理人: | 杜娟<國際申請>=<國際公布>=<進入國 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數據 挖掘 關聯規則 頻繁項集 候選項 度量 多次掃描 頻繁模式 十字鏈表 閾值要求 多階段 兩階段 支持度 比對 分塊 減小 內存 剔除 數據庫 消耗 評估 應用 決策 | ||
1.基于Hadoop的大數據關聯規則的挖掘方法,其特征在于,具體操作過程包括如下步驟:
步驟1,輸入待挖掘大數據集,對大數據集進行分塊;
步驟2,使用兩階段MapReduce過程來完成大數據集中關聯規則的挖掘任務;
步驟3,使用kulczynski度量和不平衡比對頻繁項集進行評估,剔除不滿足kulczynski度量和不平衡比閾值要求的頻繁項集,確保所挖掘頻繁模式具有正相關性。
2.如權利要求1所述的基于Hadoop的大數據關聯規則的挖掘方法,其特征在于,所述步驟1的具體過程如下:使用Hadoop核心組件HDFS對大數據集進行分塊,為了保證數據完整性,副本數設置為3。
3.如權利要求1所述的基于Hadoop的大數據關聯規則的挖掘方法,其特征在于,所述步驟2包括如下過程:
步驟2.1,使用Map函數生成局部候選頻繁項集,使用Reduce函數合并所有局部候選頻繁項集,剔除不符合支持度要求的局部候選頻繁項集;
步驟2.2,采用Map函數計算所有局部候選頻繁項集在所有數據分塊中的支持度,使用Reduce函數合并所有候選項集的支持度,剔除不滿足最小支持度要求的項集。
4.如權利要求3所述的基于Hadoop的大數據關聯規則的挖掘方法,其特征在于,所述步驟2.1的具體過程如下:
步驟2.1.1,使用Map函數將分塊數據集轉化為關系矩陣,使用正交鏈表對該矩陣進行存儲;
步驟2.1.2,采用高效的連接和剪枝操作生成局部候選頻繁項集;
步驟2.1.3,利用正交鏈表快速得到局部候選頻繁項集的支持度,并使用Reduce函數將所有局部候選頻繁項集進行匯總。
5.如權利要求4所述的基于Hadoop的大數據關聯規則的挖掘方法,其特征在于,所述步驟2.1.1的具體過程如下:
首先,掃描步驟1得到的分塊數據集,將分塊數據集轉化為如下關系矩陣:
其中,|I|為數據庫包含的項目數,|D|為事務數據庫包含的事務數;
然后利用正交鏈表對該矩陣進行存儲,所述正交鏈表包含三種類型的節點,分別為M節點、H節點和E節點;其中,M節點為正交鏈表的表頭節點;H節點為行/列表頭節點,是正交鏈表中行鏈表或者列鏈表的表頭節點;E節點為關系矩陣中非零元素對應的節點;
每種節點均包含四個域:Tag域、Element域、Right域和Down域;其中,Tag域為標志域,用以區分三種不同類型的節點;Element域為元素域,對正交鏈表表頭節點來說,元素域中的二元組存儲的是對應稀疏關系矩陣的行數和列數,即事務數據庫D包含的事務數和項目數;對行表頭節點來說,元素域中的二元組表示第幾行和該行中包含的非零元素個數;對列表頭節點來說,元素域中的二元組表示項目或項目集及該列中的非零元素個數;對非零元素節點來說,元素域中的二元組表示項目或項目集及包含該項目或項目集的事務編號;Right域為指針域,對正交鏈表表頭節點來說其指向第一個列表頭節點;對行表頭節點來說,其指向該行第一個非零元素節點;對列表頭節點來說,其指向下一個列表頭節點;對非零元素節點來說,其指向該行下一個非零元素節點;Down域也為指針域,對正交鏈表表頭節點來說其指向第一個行表頭節點;對行表頭節點來說,其指向下一個列表頭節點;對列表頭節點來說,其指向該列第一個非零元素節點;對非零元素節點來說,其指向該列下一個非零元素節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910672220.1/1.html,轉載請聲明來源鉆瓜專利網。





