[發明專利]一種基于滑動窗口的頻繁項集并行增量挖掘的方法在審
| 申請號: | 202210077060.8 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN114691749A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 馬漢達;方偉 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/182 |
| 代理公司: | 成都智涌知識產權代理事務所(普通合伙) 51313 | 代理人: | 魏振柯 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 滑動 窗口 頻繁 并行 增量 挖掘 方法 | ||
1.一種基于滑動窗口的頻繁項集并行增量挖掘的方法,其特征在于包括以下步驟:
步驟1,獲取數據集;
步驟2,對獲取的數據集進行數據預處理;
步驟3,將數據集劃分為n份增量數據集DBk;
步驟4,對劃分出的數據集DBk按批次輸入滑動窗口進行增量挖掘;
步驟5,挖掘當前單批次數據集DBk的頻繁項集和準頻繁項集;
步驟6,將當前批次數據集DBk作為前序批次DB1…k-1數據集的增量,合并滑動窗口中當前批次和前序批次數據集挖掘出的頻繁項集和準頻繁項集;
步驟7,獲取更新后當前滑動窗口中的全部頻繁項集。
2.根據權力要求1所述的一種基于滑動窗口的頻繁項集并行增量挖掘的方法,其特征在于:在步驟2中,數據預處理包括對事務數據集中事務項的數值化處理,剔除臟數據。
3.根據權力要求1所述的一種基于滑動窗口的頻繁項集并行增量挖掘的方法,其特征在于:在步驟3中,數據集劃分方式為按數據集事務總條數等分為n份,每份數據集記為DBk,k∈[1,n];由于每份數據集事務記錄條數相等,每條事務記錄的事務項數目不同,因此最終每份數據集DBk的大小不絕對相等。
4.根據權力要求1所述的一種基于滑動窗口的頻繁項集并行增量挖掘的方法,其特征在于:在步驟4中,有如下定義:
定義4.1,滑動窗口定義為一個包含m個批次數據集的固定大小窗口,其性質類似于一個長度為m的固定大小的隊列,一頭進、另一頭出;滑動窗口中僅保留m個批次的數據集,當第m+1個批次的增量數據集輸入時,需要將窗口另一頭的第1個批次的數據集剔除,保證窗口中只有m個固定批次數據集。
定義4.2,滑動窗口中的增量挖掘定義為每次輸入窗口中的單批次數據集DBk是要在其前序的m-1個批次數據集的基礎上進行增量的挖掘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210077060.8/1.html,轉載請聲明來源鉆瓜專利網。





