[發(fā)明專利]一種基于數(shù)據(jù)倉庫的異構大數(shù)據(jù)整合方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310723548.4 | 申請日: | 2013-12-24 |
| 公開(公告)號: | CN103678665A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設計)人: | 徐曉冬;鄒鐵鵬;何昌桃;黃建鵬 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張?zhí)K沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數(shù)據(jù)倉庫 異構大 數(shù)據(jù) 整合 方法 系統(tǒng) | ||
技術領域
本發(fā)明主要涉及互聯(lián)網(wǎng)領域,尤其涉及一種基于數(shù)據(jù)倉庫的異構大數(shù)據(jù)整合方法和系統(tǒng)。
背景技術
商業(yè)智能(BI,Business?Intelligence)綜合利用數(shù)據(jù)倉庫、ETL技術、OLAP分析以及數(shù)據(jù)挖掘技術對數(shù)據(jù)進行有效的整合和存儲,并對數(shù)據(jù)進行分析,提取出其中蘊藏的知識,從而幫助企業(yè)進行決策分析,在企業(yè)中得到了越來越廣泛的應用。
隨著互聯(lián)網(wǎng)的快速發(fā)展,使互聯(lián)網(wǎng)的應用越來越豐富,這些應用讓互聯(lián)網(wǎng)留存了海量的數(shù)據(jù)信息,包括用戶的瀏覽記錄,交易記錄、日志文件、網(wǎng)絡頁面信息以及超鏈接。如何在海量的、動態(tài)的互聯(lián)網(wǎng)信息數(shù)據(jù)中獲取有用的知識,是商業(yè)智能的價值所在。
但是傳統(tǒng)的商業(yè)智能架構移植到互聯(lián)網(wǎng)應用領域會產(chǎn)生嚴重的“水土不服”現(xiàn)象,因為如下幾種情況限制了傳統(tǒng)的商業(yè)智能架構的作用:
●互聯(lián)網(wǎng)應用中數(shù)據(jù)源多種多樣,包含各種關系型數(shù)據(jù)庫保存的數(shù)據(jù),社交網(wǎng)絡產(chǎn)生的數(shù)據(jù),網(wǎng)絡日志數(shù)據(jù)、圖片文件、文本文件等。但傳統(tǒng)的商業(yè)智能都是以處理各種關系型數(shù)據(jù)庫中的數(shù)據(jù)見長。
●互聯(lián)網(wǎng)數(shù)據(jù)量巨大。目前各類網(wǎng)站,特別是運營時間比較長的電子商務網(wǎng)站,都會產(chǎn)生了巨大的網(wǎng)絡日志,而且在數(shù)據(jù)庫中也存儲了大量的各類數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、商情數(shù)據(jù)、詢盤數(shù)據(jù)等,另外,還有大量的各類數(shù)據(jù)文件保存在服務器中,在處理這么大規(guī)模的數(shù)據(jù)都出現(xiàn)了很多新的問題,而傳統(tǒng)的關系型數(shù)據(jù)庫目前已經(jīng)無法滿足處理如此大規(guī)模數(shù)據(jù)的要求。
●電子商務對于數(shù)據(jù)分析的實時性要求極高,有很大部分的數(shù)據(jù)只在短時間內(nèi)才能體現(xiàn)數(shù)據(jù)的價值,處理數(shù)據(jù)速度的快慢就顯得尤為重要。
●用戶量巨大,互聯(lián)網(wǎng)特別是電子商務的BI應用很大一部分是面向網(wǎng)站的用戶群體的,這個群體數(shù)目巨大。傳統(tǒng)的BI展現(xiàn)工具設計的時候是為了企業(yè)的中高層用戶設計,移植到互聯(lián)網(wǎng)應用中,無論從用戶體驗,交互效率都存在巨大差距。
以上四個問題就是傳統(tǒng)的BI解決方案在互聯(lián)網(wǎng)領域屢屢失敗的根本原因。
目前針對大數(shù)據(jù)的處理方法,已經(jīng)有一些研究和應用成果。
專利“一種分布式數(shù)據(jù)流處理方法及其系統(tǒng)”(專利申請?zhí)枺?01110378247.3),它提出的方法是:將原始數(shù)據(jù)流分割成實時數(shù)據(jù)流和歷史數(shù)據(jù)流,并行處理實時數(shù)據(jù)流和歷史數(shù)據(jù)流,并對他們的處理結果進行整合。這種方法通過對數(shù)據(jù)按時間進行分類,實時數(shù)據(jù)流的運算能夠最大限度地以分布式并行處理,保證了大數(shù)據(jù)量的處理和高實時性。但這種方法沒有解決異構數(shù)據(jù)之間關系問題,對于異構大數(shù)據(jù)如何協(xié)調之間的關聯(lián)關系,并進行整合處理方面,還沒有提出解決方法。
專利“一種大數(shù)據(jù)量的數(shù)據(jù)查詢方式”(專利申請?zhí)枺?01210075512.5),此方法先定義增量數(shù)據(jù)捕獲方式,以及增量捕獲調度執(zhí)行計劃,然后執(zhí)行增量數(shù)據(jù)定期歸集,最后執(zhí)行數(shù)據(jù)統(tǒng)計結果查詢。此方法把復雜的數(shù)據(jù)統(tǒng)計查詢過程包分解成兩個過程:統(tǒng)計計算歸集和實時查詢;將統(tǒng)計計算歸集過程放在后臺運行,并且歸集過程只歸集增量數(shù)據(jù),提高了大數(shù)據(jù)量統(tǒng)計查詢的執(zhí)行效率。此方法主要是針對關系型數(shù)據(jù)數(shù)據(jù)庫提出的,沒有涉及到異構數(shù)據(jù)的處理。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提出了一種基于數(shù)據(jù)倉庫的異構大數(shù)據(jù)整合方法和系統(tǒng),建立結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)的關聯(lián)關系,結合關系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫以及內(nèi)存數(shù)據(jù)庫的各自的優(yōu)勢,整合各類數(shù)據(jù),基于數(shù)據(jù)倉庫做深層次數(shù)據(jù)分析,不斷深化數(shù)據(jù)挖掘,實現(xiàn)高效、高質量的異構大數(shù)據(jù)分析處理。
本發(fā)明技術方案如下:
一種基于數(shù)據(jù)倉庫的異構大數(shù)據(jù)整合方法,包括:
數(shù)據(jù)源分為兩部分存儲,一部分存儲在關系型數(shù)據(jù)庫中,另一部分存儲在文件系統(tǒng)中。其中,存儲在關系型數(shù)據(jù)庫中的數(shù)據(jù)主要是各個業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關鍵詞數(shù)據(jù)等結構化數(shù)據(jù),也包括關于社交信息、產(chǎn)品詳細描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等非結構化數(shù)據(jù);存儲在文件系統(tǒng)中的數(shù)據(jù)主要是以網(wǎng)絡日志文件為主的半結構化數(shù)據(jù),以及各類圖片文件和文檔文件等非結構化數(shù)據(jù)。
各個業(yè)務系統(tǒng)中的數(shù)據(jù),經(jīng)過標準數(shù)據(jù)接口,通過ETL,加載到ODS,再從ODS通過ETL加載到數(shù)據(jù)倉庫中。
存儲在文件系統(tǒng)中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統(tǒng)(簡稱:hdfs)中,再利用Map/Reduce對這些文件進行處理,使之能夠被Hive所使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經(jīng)焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310723548.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于進行數(shù)據(jù)倉儲的設備和方法
- 用于進行數(shù)據(jù)倉儲的系統(tǒng)和方法
- 同步構建業(yè)務模型和數(shù)據(jù)倉庫模型及其映射的方法及系統(tǒng)
- 一種構建數(shù)據(jù)倉庫表血緣關系圖的方法和裝置
- 一種數(shù)據(jù)倉庫性能測試方法及系統(tǒng)
- 一種老年健康監(jiān)護系統(tǒng)用數(shù)據(jù)及資源存儲層
- 數(shù)據(jù)模型生成方法和數(shù)據(jù)倉庫生成方法、裝置及電子設備
- 一種解耦合的彈性數(shù)據(jù)倉庫架構
- 數(shù)據(jù)同步方法、裝置、存儲介質和計算機設備
- 一種數(shù)據(jù)倉庫管理方法及系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





