[發明專利]一種數據關聯規則挖掘算法在審
| 申請號: | 201710649382.4 | 申請日: | 2017-08-01 |
| 公開(公告)號: | CN107463665A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 龔炎 | 申請(專利權)人: | 廣東云下匯金科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510419 廣東省廣州市開*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 關聯 規則 挖掘 算法 | ||
技術領域
本發明涉及一種數據的挖掘算法,更具體的,涉及一種數據關聯規則挖掘算法。
背景技術
隨著信息時代的到來,各行各業積累了大規模的數據,各個領域的信息數據呈現爆炸增長態勢,龐大的信息已經對各個行業的應用產生了困擾。原本單純依靠數據庫管理系統和統計學的手段進行信息檢索和分析的機制已遠遠不能滿足現實需要,不僅如此,由于數據本身具有一些非結構化的特性,如聲音、圖像等,使其也不能使用傳統的模式展開分析處理。數據挖掘技術,作為一種將傳統數據分析方法與處理大量數據的復雜算法相結合的新技術,在此背景下孕育而生。
近些年來,關聯規則作為數據挖掘的一個主要分支和研究領域,正逐漸被業界的專家和學者們重視,各類機構、公司和高校都對其開展了很多廣泛而深入的研究。關聯規則挖掘的應用起源于零售業,如商場內商品的銷售管理,其主要挖掘的對象通常為事務數據庫。初衷是希望憑借交易數據的信息挖掘不同類產品之間有意義的聯系,并總結和歸納出大部分顧客的購買習慣和模式,通過分析運用此類模式,提高商場進貨和庫存管理效率,指導商家科學地布置貨架、制定營銷策略、發現銷售商機等。近些年關聯規則挖掘方法的迅速發展,使之在醫藥、保險業、銀行業、安全交易、生態環境研究、電信、交通、教育等多個領域得到廣泛應用。
Apriori算法是多循環方法挖掘頻繁模式的經典算法,也是第一個關聯規則挖掘算法,該算法的主要特點是在生成候選模式時運用先驗原理對候選項集進行修剪,大幅刪除了冗余項,其性能得到較大提升。但是由于在候選項集的產生和頻繁項集的驗證過程中,需要反復地掃描事務數據庫,使得該算法的執行效率大打折扣。
現階段多層關聯規則挖掘的經典算法Cumulate是一種將數據放在同一層級上考量的普遍化關聯規則挖掘算法,該算法能進行多層及跨層次頻繁模式的挖掘;而ML-T2L1算法則是采用的是一種從頂層到底層逐層搜索的挖掘方式,但缺點是不能實現跨層級的挖掘。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。
為此,本發明的目的在于,設計一種數據關聯規則挖掘算法,算法中不同項集對應給定的不同的最小支持度閾值,目的是通過對項目設置不同的最小支持度閾值,實現在不同重要程度的數據項中挖掘出數據量小,但用戶更感興趣、更有價值的關聯規則。
聚類分析是根據實際數據的特征,依據對象之間的相似程度,將數據劃分到多個類或簇的過程。是一種非監督的學習方式,要求是簇內相似度高,簇間相似度低。獲得數據的聚類分布狀況后,分析聚簇集合,觀測簇數據特征。可采用聚類分析作為其他數據挖掘算法如關聯規則、預測算法的預處理步驟。
為實現上述目的,本發明提供了一種數據關聯規則挖掘算法,包括:
第一步,將集合I={i1,i2,...,in}的所有項目按照給定的項最小支持度MIS進行排序;
第二步,掃描數據庫,將數據庫D轉換成垂直數據表示形式,映射到布爾矩陣D1中;新增計數數組m,記錄矩陣中每一列1的個數;
第三步,掃描布爾矩陣D1,根據預設的計算規則生成頻繁1項頻集L1;
第四步,生成新的布爾矩陣D2;根據預設項集計算規則得到加權頻繁2項集L2,更新D2、計數數組m和權重數組w;
第五步,在L2中,根據項集的前綴不同,運用等價類劃分的方式對候選項集進行劃分,在劃分后的子集中,對頻繁項集進行挖掘。將矩陣D2按劃分后的子集,分成不同的子矩陣;
第六步,在劃分后的子矩陣中,根據新的計數數組,刪除冗余矩陣列,更新劃分后的子矩陣,在新的矩陣中,生成新的L3和D3,更新數組m和w;
第七步,當k>2時,處于同一個等價類里的k項集,按照步驟六的方法生成頻繁k+1項集和新的矩陣Dk,直至結束,所述k為生成的布爾矩陣D的數目;
第八步,合并L1、L2和所有等價類中的頻繁項集生成全局加權頻繁項集。
更具體的,在步驟一之前還包括:
輸入數據庫D和各項目的權值和最小支持度數組MIS。
更具體的,所述步驟一具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東云下匯金科技有限公司,未經廣東云下匯金科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710649382.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





