[發明專利]關聯分析方法和裝置有效
| 申請號: | 201610096728.8 | 申請日: | 2016-02-22 |
| 公開(公告)號: | CN107102999B | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 代斌;楊旭;姜曉燕;蔡寧;王少萌 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京市惠誠律師事務所 11353 | 代理人: | 劉子敬 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關聯 分析 方法 裝置 | ||
1.一種關聯分析方法,其特征在于,包括:
將原始數據庫劃分為各投影數據庫,所述各投影數據庫中,基于一投影數據庫進行序列模式挖掘所獲得的頻繁項集未出現在另一投影數據庫中,其中,支持度表示項集在數據庫中出現的頻次,并且所述頻繁項集表示數據庫中所有出現頻次不小于支持度閾值的項集;
由各節點分別對所對應的投影數據庫進行序列模式的關聯分析,獲得局部頻繁項集以及對應支持度;
對各節點關聯分析所獲得的局部頻繁項集以及對應支持度進行匯總,獲得全局頻繁項集以及對應支持度。
2.根據權利要求1所述的關聯分析方法,其特征在于,所述將原始數據庫劃分為各投影數據庫,包括:
對所述原始數據庫進行序列模式的關聯分析,獲得至少兩個初始項集;其中,各初始項集之間不存在相互包含關系;
將各初始項集作為前綴,建立各前綴的投影數據庫。
3.根據權利要求2所述的關聯分析方法,其特征在于,所述對所述原始數據庫進行序列模式的關聯分析,獲得至少兩個初始項集,包括:
計算原始數據庫的K_頻繁項集;其中K為正整數,且1≤K<N,N為原始數據庫中所包含的元素數;
將所述K_頻繁項集作為所述初始項集。
4.根據權利要求3所述的關聯分析方法,其特征在于,所述將所述K_頻繁項集作為所述初始項集之前,還包括:
根據預設的支持度閾值,對K_頻繁項集進行篩選,保留支持度大于所述支持度閾值的K_頻繁項集。
5.根據權利要求2所述的關聯分析方法,其特征在于,所述將各初始項集作為前綴,建立各前綴的投影數據庫,包括:
將所述初始項集作為前綴,在所述原始數據庫的各事務中查詢所述前綴所對應的后綴;
將各事務的后綴進行匯總形成所述前綴的投影數據庫。
6.根據權利要求1所述的關聯分析方法,其特征在于,所述由各節點分別對所對應的投影數據庫進行序列模式的關聯分析之前,包括:
為各投影數據庫分配負載能力與所述投影數據庫的數據量相匹配的節點。
7.根據權利要求1所述的關聯分析方法,其特征在于,所述由各節點分別對所對應的投影數據庫進行序列模式的關聯分析,獲得局部頻繁項集以及對應支持度,包括:
采用預設關聯分析算法,由所述節點對所述投影數據庫執行掃描、合并和剪枝的步驟,獲得局部頻繁項集以及對應支持度。
8.根據權利要求7所述的關聯分析方法,其特征在于,所述關聯分析算法包括GSP算法。
9.根據權利要求2所述的關聯分析方法,其特征在于,所述對所述原始數據庫進行序列模式的關聯分析,獲得至少兩個初始項集之前,還包括:
根據映射表,對原始數據進行序列化獲得原始數據庫。
10.根據權利要求9所述的關聯分析方法,其特征在于,
所述對各節點關聯分析所獲得的局部頻繁項集以及對應支持度進行匯總之前,對所述局部頻繁項集進行反序列化;
或者,獲得全局頻繁項集以及對應支持度之后,對所述全局頻繁項集進行反序列化。
11.一種關聯分析裝置,其特征在于,包括:
劃分模塊,用于將原始數據庫劃分為各投影數據庫,所述各投影數據庫中,基于一投影數據庫進行序列模式挖掘所獲得的頻繁項集未出現在另一投影數據庫中,其中,支持度表示項集在數據庫中出現的頻次,并且所述頻繁項集表示數據庫中所有出現頻次不小于支持度閾值的項集;
分析模塊,用于由各節點分別對所述投影數據庫進行序列模式的關聯分析,獲得局部頻繁項集以及對應支持度;
匯總模塊,用于對各節點關聯分析所獲得的局部頻繁項集以及對應支持度進行匯總,獲得全局頻繁項集以及對應支持度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096728.8/1.html,轉載請聲明來源鉆瓜專利網。





