[發明專利]一種基于數據倉庫的異構大數據整合方法和系統有效
| 申請號: | 201310723548.4 | 申請日: | 2013-12-24 |
| 公開(公告)號: | CN103678665A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 徐曉冬;鄒鐵鵬;何昌桃;黃建鵬 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據倉庫 異構大 數據 整合 方法 系統 | ||
1.一種基于數據倉庫的異構大數據整合方法,其特征在于:
數據源分為兩部分存儲,一部分存儲在關系型數據庫中,另一部分存儲在文件系統中;其中,存儲在關系型數據庫中的數據是各個業務系統產生的數據,包括結構化數據和非結構化數據;存儲在文件系統中的數據是以網絡日志文件為主的半結構化數據,以及各類圖片文件和文檔文件非結構化數據;
各個業務系統中的數據,經過標準數據接口,通過ETL,加載到ODS,再從ODS通過ETL加載到數據倉庫中;
存儲在文件系統中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統中,再利用Map/Reduce對這些文件進行處理,使之能夠被Hive所使用;
確定與網絡日志、圖片文件、文檔文件有關聯的業務數據后,將他們從數據倉庫提取出來,這其中包含結構化數據和文本型的非結構化數據;
使之與網絡日志信息、圖片文件、文檔文件中的相應數據對應后,存儲在HBase分布式數據庫中;
在HBase存有大量的各類異構數據,根據業務需要,利用Map/Reduce對HBase中存儲的大量相關聯數據進行分布式運算處理,從而完成對大量數據的預處理,實現異構數據間的初步整合;計算后的結果作為中間結果保存在HBase中;
Hive把一部分關聯數據以及計算得出的中間結果,通過ETL再加載到數據倉庫中,從而分享給所有的數據集市使用;另一部分按照不同數據集市的主題需要,通過ETL,加載到各個不同主題的數據集市中;
這些異構數據進行處理后,以結構化的形式存儲在各個數據集市和數據倉庫中;
在各個不同主題的數據集市中,依照各自的數據挖掘算法對數據集市中的數據進行挖掘計算,形成各自主題領域內的局部知識結果,然后數據集市將各自的局部知識結果回寫到數據倉庫中;
數據倉庫對各個業務主題的局部知識結果進行統一存儲并整理,形成數據倉庫中的知識層,得到全局知識結果;每個數據集市能夠分享到整體業務的知識,并利用知識層的數據進一步挖掘更多的數據知識;這個過程不斷循環進行,形成一個有效的知識信息閉環,提高了知識的重復利用以及數據挖掘的性能;
在數據集市中,常用數據以類似數據庫的結構寫入內存,這些數據一直駐留內存,形成簡易便捷的內存數據庫,網站活動事務數據和內存數據庫中的數據進行交互處理;通過內存數據庫,用戶通過在線分析實時監控網上訪問情況,詢盤數據實時信息。
2.根據權利要求1所述的方法,其特征在于:存儲在關系型數據庫中數據,包括注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據結構化數據,也包括關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容非結構化數據。
3.根據權利要求1所述的方法,其特征在于:Hive將存儲在Hadoop分布式文件系統中的圖片文件、文檔文件等這種非結構化文件的屬性映射到一張數據庫表中;在這些數據庫表中,包含有半結構化數據和非結構化數據,在其中存在有隱性的各種屬性數據,包括隱性的行為數據等。通過將數據庫表中的字段與數據倉庫中的知識庫建立關聯關系,從而建立了隱性數據與數據倉庫中顯性業務數據之間的聯系,為異構數據的整合做好準備。
4.根據權利要求1所述的方法,其特征在于:分布式運算處理,
包括數據分組、數據排序、數據統計、數據異常檢測。
5.根據權利要求1所述的方法,其特征在于,這些異構數據進行上述處理后,以結構化的形式加載到各個數據集市和數據倉庫中,這時,在數據倉庫和數據集市中包含有:各個業務系統包含的注冊數據、產品數據、銷售數據、詢盤數據、商情數據、關鍵詞數據結構化數據,以及關于社交信息、產品詳細描述、詢盤內容、網站留言、郵件內容文本型的非結構化數據,還有網絡日志中的數據、圖片文件和文檔文件中包含的屬性數據、以及這些數據初步整合的中間數據結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310723548.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





