[發明專利]一種基于位圖數據結構的數據分析方法及裝置有效
| 申請號: | 201710872848.7 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN107622121B | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 劉東岳;吳斌;王柏;卜堯;郭志紅;楊祎;馬艷;辜超;白德盟;林穎;秦佳峰 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 位圖 數據結構 數據 分析 方法 裝置 | ||
1.一種基于位圖數據結構的數據分析方法,其特征在于,應用于分布式系統所包含分布式子節點中的一個分布式子節點,所述分布式系統包括:主節點和分布式子節點,所述方法包括:
獲得所述主節點分配的第一事務子集合,其中,所述第一事務子集合為:事務集合的子集合;
獲得所述事務集合中事務的總數目及所述事務集合中事務的排序;
根據所述排序,確定每一目標項目對應的位圖數據,其中,一個目標項目對應的位圖數據的每一比特位,按照所述排序與所述事務集合中的一個事務對應,每一比特位的取值表示該比特位所對應的事務是否為該目標項目的關聯事務;目標項目為:所述第一事務子集合中各個事務包含的項目;一個目標項目的關聯事務為:所述事務集合中包括該目標項目的事務;
分別統計每一目標項目對應的位圖數據中第一數據與所述總數目之間的比例,并根據統計的比例確定目標項目中的頻繁1項集,其中,所述第一數據為:位圖數據中項目的關聯事務對應的比特位的取值;
將為頻繁1項集的目標項目和為頻繁1項集的目標項目的位圖數據,廣播至所述主節點和其他分布式子節點;
接收統計項目和所述統計項目的位圖數據,其中,所述統計項目是其他分布式子節點基于所述主節點分配的第二事務子集合統計得到的,所述第一事務子集合與各個第二事務子集合的并集為所述事務集合;
基于接收到的統計項目、統計項目的位圖數據和為頻繁1項集的目標項目的位圖數據,計算目標項集是否為頻繁項集,其中,所述目標項集中包含至少兩個項目;
若所述目標項集為頻繁項集,確定所述目標項集中各個項目之間的關聯規則;
所述根據所述排序,確定每一目標項目對應的位圖數據的步驟,包括:
針對每一目標項目,基于所述第一事務子集合中包括該目標項目的事務、第二事務子集合中包括該目標項目的事務和預設的映射關系,將包括該目標項目的事務對應的比特位的取值設置為第一數據,將不包括該目標項目的事務對應的比特位的取值設置為第二數據,得到該目標項目的位圖數據,其中,所述映射關系為:按照所述排序確定的、位圖數據中比特位與所述事務集合中事務的對應關系。
2.根據權利要求1所述的方法,其特征在于,所述第一數據為1,所述第二數據為0。
3.根據權利要求1所述的方法,其特征在于,在所述計算目標項集是否為頻繁項集的步驟之前,所述方法還包括:
接收所述主節點發送的針對目標項集的統計指令。
4.根據權利要求1所述的方法,其特征在于,在所述根據所述排序,確定每一目標項目對應的位圖數據的步驟之后,所述方法還包括:
將每一目標項目對應的位圖數據壓縮為壓縮位圖數據;
所述將為頻繁1項集的目標項目和為頻繁1項集的目標項目的位圖數據,廣播至所述主節點和所述其他分布式子節點的步驟,包括:
將為頻繁1項集的目標項目和為頻繁1項集的目標項目的壓縮位圖數據,廣播至所述主節點和所述其他分布式子節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710872848.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:系統日志清理方法和裝置
- 下一篇:一種專利關鍵詞自動提取方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





