[發明專利]一種快速高效的顯著性模式挖掘方法在審
| 申請號: | 202010542490.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111695972A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 凌德;高傳集;于沈課 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06F16/22;G06F16/2458 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 陳婷婷 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 高效 顯著 模式 挖掘 方法 | ||
1.一種快速高效的顯著性模式挖掘方法,其特征在于,該方法在頻繁模式挖掘中關聯規則的基礎上在進行顯著性挖掘,具體方式為:
進行頻繁模式挖掘,找到頻繁出現的商品組合,然后研究在不同類下頻繁模式的差異,在顯著性模式挖掘的基礎下,進行置換檢驗,通過P值的最小下界將不夠頻繁的模式篩選掉。
2.根據權利要求1所述的一種快速高效的顯著性模式挖掘方法,其特征在于,本方法通過FP-growth算法進行頻繁模式挖掘,
FP-growth通過構造前綴樹結構壓縮數據記錄;通過數據庫掃描識別所有頻繁項目,然后通過處理每個事物來構造FP樹,處理包括:從事物中挑選頻繁項目,按頻繁降序對項目進行排序生成分支,將分支插入FP樹。
3.根據權利要求2所述的一種快速高效的顯著性模式挖掘方法,其特征在于,所述前綴樹的節點包含兩個字段:項和計數;FP樹的節點包含兩個額外的指針:指向其父節點的父鏈接和指向包含相同項的另一個節點的節點鏈接。
4.根據權利要求1或2所述的一種快速高效的顯著性模式挖掘方法,其特征在于,本方法通過Westfall-Young light算法研究在不同類下頻繁模式的差異,通過Westfall-Younglight算法控制族錯誤率,通過檢索模式最終得到合適的閾值。
5.根據權利要求4所述的一種快速高效的顯著性模式挖掘方法,其特征在于,將替代集的檢索鏈接到頻繁模式挖掘中,解決枚舉檢驗模式問題。
6.根據權利要求4所述的一種快速高效的顯著性模式挖掘方法,其特征在于,Westfall-Young light算法中,每個頻繁項集對應一個檢驗,跑遍每個頻繁項集,每跑一個頻繁項集,計算相應的P值,并與目前Pmin取最小得到新的Pmin,所有檢驗跑完后得到最小的Pmin。
7.根據權利要求6所述的一種快速高效的顯著性模式挖掘方法,其特征在于,通過增大最小支持度來控制FWER(δ)<α,重復jp次之后得到jp個Pmin的向量,取α分數位即可得到最后閾值。
8.根據權利要求7所述的一種快速高效的顯著性模式挖掘方法,其特征在于,控制FWER的過程如下:
ψ(xs)是一個單調的p值最低可達下界函數,自變量是支持度,可檢測集即{S|ψ(xs)≤δ},由于單調性,其等價于{S|xs≥ψ-1(δ)},即支持度應該大于ψ-1(δ);其中δ是α的一個過程量,每新跑一個項集,就相當于多了一個檢驗,需要限制更大的σ,則α的替代值δ=ψ(σ)會減小,然后模擬出p[pmin<σ)],直到σ增大到能夠控制p[pmin<σ)]<α為止,再添加新的檢驗;
遞歸跑遍所有項集,由于σ增大,部分不頻繁項集不計算,此時每個實驗都得到了一組σ、δ、pmin,并且FWER(δ)<α成立,根據所有pmin分位數得出閾值δ即可。
9.一種快速高效的顯著性模式挖掘裝置,其特征在于,包括:至少一個存儲器和至少一個處理器;
所述至少一個存儲器,用于存儲機器可讀程序;
所述至少一個處理器,用于調用所述機器可讀程序,執行權利要求1至8任一所述的方法。
10.計算機可讀介質,其特征在于,所述計算機可讀介質上存儲有計算機指令,所述計算機指令在被處理器執行時,使所述處理器執行權利要求1至8任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542490.3/1.html,轉載請聲明來源鉆瓜專利網。





