[發明專利]一種多源異構割裂結構化數據轉化方法及系統在審
| 申請號: | 201710188581.X | 申請日: | 2017-03-27 |
| 公開(公告)號: | CN107168989A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 趙淦森;吳杰超;莊序填;任雪琦;楊雪芬;席云;胡波;王欣明;聶瑞華;唐華 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司44205 | 代理人: | 胡輝 |
| 地址: | 510631 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多源異構 割裂 結構 數據 轉化 方法 系統 | ||
技術領域
本發明涉及數據處理技術領域,尤其涉及一種多源異構割裂結構化數據轉化方法及系統。
背景技術
據IBM公司的分析,人類文明有90%的數據是在過去兩年內產生的,到2020年,全世界所產生的數據規模將達到今天的44倍。而我國截至2015年12月,已經擁有6.88億的互聯網用戶 ,13.06億的手機用戶 ,每天可產生海量的數據。大數據無論在大型企業,還是政府部門都發揮著相當的作用。
2015年8月國務院印發了《促進大數據發展行動綱要》(國發〔2015〕50號),明確強調“數據已成為國家基礎性戰略資源,大數據正日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響”。該文件同時指出大數據的特點為“數量巨大、來源分散、格式多樣”,要求通過“采集、存儲和關聯分析,從中發現新知識、創造新價值”。
在體量巨大之外,大數據的明顯特征是“碎片化”。具體來說是同一個數據可能碎片化存儲或者來源于不同的數據源,相互獨立;同一對象的不同側面和不同維度的數據碎片化存儲于不同的地方,互不關聯;同一側面和維度的數據可能采用不同的結構和模式進行組織和表示,互不相同。總結而言,大數據的碎片化形成了多源、割裂、異構的數據形態。
因此,如何將多源、割裂、異構的數據融合是一個值得研究的問題。而在現有的系統中,對結構化數據的描述都具有獨特性的。在多源的情況下,相同的信息在不同的系統具有不同的描述方式及不同的表達結構。因此,現有的數據融合及實體識別的方法都是基于特定結構的數據,一旦用于不同結構的數據,算法效果將大大降低。所以,在數據融合的過程中,不同的描述方式嚴重影響數據融合的質量及增加了數據融合的成本。
現有的技術主要采用基于模式集成方式,即通過模式轉換實現不同數據庫之間的轉換,只能描述數據模型的結構信息,缺少了語義信息。同時根據1所說,現有的數據融合及實體識別的方法都是基于特定結構的數據。而Yodsawalai Chodpathumwan提出的一種獨立表達方式的轉換方法只針對于特定的兩個能轉換的數據庫。但在現實的情況中,并不是所有的數據庫的圖結構都可以相互轉換的。
發明內容
為了解決上述技術問題,本發明的目的是提供一種能提高信息完整度的一種多源異構割裂結構化數據轉化方法及系統。
本發明所采取的技術方案是:
一種多源異構割裂結構化數據轉化方法,包括以下步驟:
將多個數據源映射到對應的局部映射圖;
將各局部映射圖組成總映射圖。
作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述的將多個數據源映射到對應的局部關系圖,這一步驟具體包括:
將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;
將數據源中各數據表的外鍵引用關系分別映射到對應的局部映射圖中對應的邊。
作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述的節點包括結構信息和語義信息。
作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述結構信息包括表結構、字段、字段類型和具體值。
作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。
本發明所采用的另一技術方案是:
一種多源異構割裂結構化數據轉化系統,包括:
局部映射單元,用于將多個數據源映射到對應的局部映射圖;
映射組成單元,用于將各局部映射圖組成總映射圖。
作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述的局部映射單元具體包括:
節點映射單元,用于將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;
邊映射單元,用于將數據源中各數據表的外鍵引用關系分別映射到對應的局部映射圖中對應的邊。
作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述的節點包括結構信息和語義信息。
作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述結構信息包括表結構、字段、字段類型和具體值。
作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。
本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710188581.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





