[發明專利]面向數據開放共享的數據劃分與組織方法有效
| 申請號: | 201710967658.3 | 申請日: | 2017-10-17 |
| 公開(公告)號: | CN107908660B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 王梅;樂嘉錦;朱揚勇;陳德華;潘喬;郝茜 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28;G06F16/2457;G06F16/901 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 200050 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 數據 開放 共享 劃分 組織 方法 | ||
本發明提供了一種面向數據開放共享的數據劃分與組織方法。本發明提供了一種在面向大數據的數據開放共享應用中通過分析數據分布的廣度和深度模式,估計數據分布模式滿足不同應用需求的價值關系,以此為基礎對原始數據劃分,生成新的用于共享的數據庫邏輯表結構。本發明的特點在于:1、從用戶的需求出發,進行數據重組和劃分,生成面向數據使用者的數據庫邏輯模式,從而更加友好的支持可變的上層應用需求;2、分析數據分布的廣度和深度模式,按照不同模式進行數據劃分,按需向用戶分配所需的數據,對原始數據進行過濾精簡,能極大地提高用戶的查詢分析性能。
技術領域
本發明涉及一種面向大數據開放共享的數據劃分與組織方法。
背景技術
數據開放共享是挖掘大數據深層價值的基礎。在數據開放環境中,首先應建立用戶友好的數據邏輯組織。
對于傳統OLTP應用,數據庫設計由應用驅動,首先進行概念模型設計,進而進行邏輯表組織和數據表創建。支持OLAP的多維數據模型,一般也是建立在多維分析需求已知的前提下。上述由需求驅動的模式保證了數據邏輯組織與應用需求的一致性。然而,在數據開放共享環境下,數據使用者和數據提供者相分離,其使用任務存在較大的不可預知性和可變性。與此同時,龐大的開放數據規模也為數據使用者高效的使用數據帶來一定的挑戰。
發明內容
本發明的目的是:對開放大數據進行合理的數據劃分,按需覆蓋、滿足可變的外部應用。
為了達到上述目的,本發明的技術方案是提供了一種面向數據開放共享的數據劃分與組織方法,其特征在于,包括以下步驟:
步驟1、建立數據劃分的啟發式準則,包括如下步驟:
步驟1.1、建立準則一:在指定的表中同時出現的數據對象,價值較高,劃分為同一組。
步驟1.2、建立準則二:在準則一劃分的基礎上,同一數據對象出現的頻率不同,價值不同,根據出現頻率進行劃分;
步驟2、在需求未知的情況下,利用原始數據中的表結構,窮舉準則一中所述指定的表的候選集,包括如下步驟:
步驟2.1、使用數據庫自帶的DDL語句查詢出原始數據庫中包含的表結構信息,建立數據集結構圖G;
步驟2.2、讀取步驟2.1生成的數據集結構圖G,定義如下幾個概念:
概念1:中心表,數據集結構圖G中出度大于等于1的節點作為中心表;
概念2:起始中心表,數據集結構圖G中入度為0的節點為一個起始中心表;
概念3:擴展表,中心表指向的表稱為擴展表,擴展表也可能是中心表;
步驟2.3、根據數據集結構圖G,將原始數據庫O從邏輯上劃分為多個不同子集,包括以下步驟:
步驟2.3.1、從數據集結構圖G的指定中心表CT開始,找出此指定中心表直接連接的所有擴展表,構成集合E,第一次執行此步驟時,指定中心表為起始中心表,并將起始中心表標記為‘+’;
步驟2.3.2、對集合E中每個擴展表進行標記,每個表標記為‘+’或‘-’,列出所有標記的可能情況,每種標記的組合用‘()’括起來,放于指定中心表CT之后;
步驟2.3.3、對于每一個標記組合,如果存在標記為‘+’且其后沒有‘()’標記的中心表,則將此中心表作為指定中心表CT,重復步驟2.3.1;
步驟2.3.4、如果所有組合中都不存在還未被劃分過的中心表,則橫向劃分完成;
步驟3、為每一種不同標記的組合新建一個數據庫NewBase,數據庫NewBase的數據表結構與原數據集相同;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710967658.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





