[發(fā)明專利]一種快速高效的顯著性模式挖掘方法在審
| 申請?zhí)枺?/td> | 202010542490.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111695972A | 公開(公告)日: | 2020-09-22 |
| 發(fā)明(設(shè)計)人: | 凌德;高傳集;于沈課 | 申請(專利權(quán))人: | 浪潮云信息技術(shù)股份公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06F16/22;G06F16/2458 |
| 代理公司: | 濟南信達專利事務(wù)所有限公司 37100 | 代理人: | 陳婷婷 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 快速 高效 顯著 模式 挖掘 方法 | ||
本發(fā)明公開了一種快速高效的顯著性模式挖掘方法,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,該方法在頻繁模式挖掘中關(guān)聯(lián)規(guī)則的基礎(chǔ)上在進行顯著性挖掘,具體方式為:進行頻繁模式挖掘,找到頻繁出現(xiàn)的商品組合,然后研究在不同類下頻繁模式的差異,在顯著性模式挖掘的基礎(chǔ)下,進行置換檢驗,通過P值的最小下界將不夠頻繁的模式篩選掉。本發(fā)明能夠有效控制顯著性挖掘中第一類錯誤的數(shù)量,避免資源浪費,縮短時間消耗,快速高效的實現(xiàn)數(shù)據(jù)處理。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地說是一種快速高效的顯著性模式挖掘方法。
背景技術(shù)
隨著信息技術(shù)的進步和科學技術(shù)的發(fā)展,人們越來越關(guān)注如何獲取對自己有用的數(shù)據(jù)并合理地處理已經(jīng)收集到的大量信息,來使制定的計劃更符合當前市場情況。頻繁模式挖掘和顯著性挖掘都是數(shù)據(jù)挖掘的基本問題,在頻繁模式挖掘中關(guān)聯(lián)規(guī)則挖掘問題尤為重要,關(guān)聯(lián)規(guī)則挖掘問題在各個領(lǐng)域都有廣泛的應(yīng)用,特別是在市場營銷上有著很大的研究價值。大數(shù)據(jù)時代,如何有效地對數(shù)據(jù)進行處理十分重要,這是一個不可忽視的工作。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種快速高效的顯著性模式挖掘方法,能夠有效控制顯著性挖掘中第一類錯誤的數(shù)量,避免資源浪費,縮短時間消耗,快速高效的實現(xiàn)數(shù)據(jù)處理。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種快速高效的顯著性模式挖掘方法,該方法在頻繁模式挖掘中關(guān)聯(lián)規(guī)則的基礎(chǔ)上在進行顯著性挖掘,具體方式為:
進行頻繁模式挖掘,找到頻繁出現(xiàn)的商品組合,然后研究在不同類下頻繁模式的差異,在顯著性模式挖掘的基礎(chǔ)下,進行置換檢驗,通過P值的最小下界將不夠頻繁的模式篩選掉。
該方法基于FastWY算法通過置換檢驗實現(xiàn)快速高效的顯著性模式挖掘,通過多重假設(shè)檢可驗控制顯著性挖掘中第一類錯誤的數(shù)量,通過費希爾精確檢驗可檢查分類下兩組數(shù)據(jù)間是否有顯著關(guān)系,通過置換檢驗做出統(tǒng)計推斷。
基于FastWY算法的置換檢驗的顯著性模式挖掘方案,例如,一個交易數(shù)據(jù)庫中,每個交易就指的是該顧客買的商品,而頻繁模式指的是一個商品組合,這個商品組合在交易數(shù)據(jù)庫中頻繁的出現(xiàn);顯著性模式挖掘則更傾向于關(guān)注不同顧客在購物需求上的差異。在只考慮頻繁模式挖掘的問題里通常只有一類交易,傾向于找在該類下的頻繁模式,但擴展到兩類交易的情況,就是傾向于找到在其中一個類別中更頻繁的商品組合。這就是所謂的在頻繁模式挖掘的基礎(chǔ)上再進行顯著性模式挖掘,具有很好的深入推廣應(yīng)用價值。
具體的,本方法通過FP-growth算法進行頻繁模式挖掘,找到頻繁出現(xiàn)的商品組合,
FP-growth通過構(gòu)造前綴樹結(jié)構(gòu)壓縮數(shù)據(jù)記錄,使得挖掘頻繁項集只需要掃描兩次數(shù)據(jù)記錄,且該算法不需要生成候選集合,所以效率比較高;
FP-growth首先通過(條件)數(shù)據(jù)庫掃描識別所有頻繁項目,然后通過處理每個事物來構(gòu)造(條件)FP樹,處理包括:從事物中挑選頻繁項目,按頻繁降序?qū)椖窟M行排序生成分支,將分支插入FP樹。
進一步的,所述前綴樹的節(jié)點包含兩個字段:項和計數(shù);FP樹的節(jié)點包含兩個額外的指針:指向其父節(jié)點的父鏈接和指向包含相同項的另一個節(jié)點的節(jié)點鏈接。
具體的,本方法通過Westfall-Young light算法研究在不同類下頻繁模式的差異,即通過Westfall-Young light算法進行關(guān)聯(lián)性挖掘,通過Westfall-Young light算法控制族錯誤率,通過檢索模式最終得到合適的閾值。
優(yōu)選的,將替代集的檢索鏈接到頻繁模式挖掘中,解決枚舉檢驗?zāi)J絾栴}。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮云信息技術(shù)股份公司,未經(jīng)浪潮云信息技術(shù)股份公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542490.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





