[發(fā)明專利]一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310723548.4 | 申請日: | 2013-12-24 |
| 公開(公告)號: | CN103678665A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 徐曉冬;鄒鐵鵬;何昌桃;黃建鵬 | 申請(專利權(quán))人: | 焦點(diǎn)科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務(wù)所 32207 | 代理人: | 張?zhí)K沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù)倉庫 異構(gòu)大 數(shù)據(jù) 整合 方法 系統(tǒng) | ||
1.一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法,其特征在于:
數(shù)據(jù)源分為兩部分存儲,一部分存儲在關(guān)系型數(shù)據(jù)庫中,另一部分存儲在文件系統(tǒng)中;其中,存儲在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)是各個業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);存儲在文件系統(tǒng)中的數(shù)據(jù)是以網(wǎng)絡(luò)日志文件為主的半結(jié)構(gòu)化數(shù)據(jù),以及各類圖片文件和文檔文件非結(jié)構(gòu)化數(shù)據(jù);
各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),經(jīng)過標(biāo)準(zhǔn)數(shù)據(jù)接口,通過ETL,加載到ODS,再從ODS通過ETL加載到數(shù)據(jù)倉庫中;
存儲在文件系統(tǒng)中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統(tǒng)中,再利用Map/Reduce對這些文件進(jìn)行處理,使之能夠被Hive所使用;
確定與網(wǎng)絡(luò)日志、圖片文件、文檔文件有關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)后,將他們從數(shù)據(jù)倉庫提取出來,這其中包含結(jié)構(gòu)化數(shù)據(jù)和文本型的非結(jié)構(gòu)化數(shù)據(jù);
使之與網(wǎng)絡(luò)日志信息、圖片文件、文檔文件中的相應(yīng)數(shù)據(jù)對應(yīng)后,存儲在HBase分布式數(shù)據(jù)庫中;
在HBase存有大量的各類異構(gòu)數(shù)據(jù),根據(jù)業(yè)務(wù)需要,利用Map/Reduce對HBase中存儲的大量相關(guān)聯(lián)數(shù)據(jù)進(jìn)行分布式運(yùn)算處理,從而完成對大量數(shù)據(jù)的預(yù)處理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)間的初步整合;計(jì)算后的結(jié)果作為中間結(jié)果保存在HBase中;
Hive把一部分關(guān)聯(lián)數(shù)據(jù)以及計(jì)算得出的中間結(jié)果,通過ETL再加載到數(shù)據(jù)倉庫中,從而分享給所有的數(shù)據(jù)集市使用;另一部分按照不同數(shù)據(jù)集市的主題需要,通過ETL,加載到各個不同主題的數(shù)據(jù)集市中;
這些異構(gòu)數(shù)據(jù)進(jìn)行處理后,以結(jié)構(gòu)化的形式存儲在各個數(shù)據(jù)集市和數(shù)據(jù)倉庫中;
在各個不同主題的數(shù)據(jù)集市中,依照各自的數(shù)據(jù)挖掘算法對數(shù)據(jù)集市中的數(shù)據(jù)進(jìn)行挖掘計(jì)算,形成各自主題領(lǐng)域內(nèi)的局部知識結(jié)果,然后數(shù)據(jù)集市將各自的局部知識結(jié)果回寫到數(shù)據(jù)倉庫中;
數(shù)據(jù)倉庫對各個業(yè)務(wù)主題的局部知識結(jié)果進(jìn)行統(tǒng)一存儲并整理,形成數(shù)據(jù)倉庫中的知識層,得到全局知識結(jié)果;每個數(shù)據(jù)集市能夠分享到整體業(yè)務(wù)的知識,并利用知識層的數(shù)據(jù)進(jìn)一步挖掘更多的數(shù)據(jù)知識;這個過程不斷循環(huán)進(jìn)行,形成一個有效的知識信息閉環(huán),提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能;
在數(shù)據(jù)集市中,常用數(shù)據(jù)以類似數(shù)據(jù)庫的結(jié)構(gòu)寫入內(nèi)存,這些數(shù)據(jù)一直駐留內(nèi)存,形成簡易便捷的內(nèi)存數(shù)據(jù)庫,網(wǎng)站活動事務(wù)數(shù)據(jù)和內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互處理;通過內(nèi)存數(shù)據(jù)庫,用戶通過在線分析實(shí)時監(jiān)控網(wǎng)上訪問情況,詢盤數(shù)據(jù)實(shí)時信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:存儲在關(guān)系型數(shù)據(jù)庫中數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),也包括關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容非結(jié)構(gòu)化數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:Hive將存儲在Hadoop分布式文件系統(tǒng)中的圖片文件、文檔文件等這種非結(jié)構(gòu)化文件的屬性映射到一張數(shù)據(jù)庫表中;在這些數(shù)據(jù)庫表中,包含有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在其中存在有隱性的各種屬性數(shù)據(jù),包括隱性的行為數(shù)據(jù)等。通過將數(shù)據(jù)庫表中的字段與數(shù)據(jù)倉庫中的知識庫建立關(guān)聯(lián)關(guān)系,從而建立了隱性數(shù)據(jù)與數(shù)據(jù)倉庫中顯性業(yè)務(wù)數(shù)據(jù)之間的聯(lián)系,為異構(gòu)數(shù)據(jù)的整合做好準(zhǔn)備。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:分布式運(yùn)算處理,
包括數(shù)據(jù)分組、數(shù)據(jù)排序、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)異常檢測。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,這些異構(gòu)數(shù)據(jù)進(jìn)行上述處理后,以結(jié)構(gòu)化的形式加載到各個數(shù)據(jù)集市和數(shù)據(jù)倉庫中,這時,在數(shù)據(jù)倉庫和數(shù)據(jù)集市中包含有:各個業(yè)務(wù)系統(tǒng)包含的注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),以及關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容文本型的非結(jié)構(gòu)化數(shù)據(jù),還有網(wǎng)絡(luò)日志中的數(shù)據(jù)、圖片文件和文檔文件中包含的屬性數(shù)據(jù)、以及這些數(shù)據(jù)初步整合的中間數(shù)據(jù)結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于焦點(diǎn)科技股份有限公司,未經(jīng)焦點(diǎn)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310723548.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于進(jìn)行數(shù)據(jù)倉儲的設(shè)備和方法
- 用于進(jìn)行數(shù)據(jù)倉儲的系統(tǒng)和方法
- 同步構(gòu)建業(yè)務(wù)模型和數(shù)據(jù)倉庫模型及其映射的方法及系統(tǒng)
- 一種構(gòu)建數(shù)據(jù)倉庫表血緣關(guān)系圖的方法和裝置
- 一種數(shù)據(jù)倉庫性能測試方法及系統(tǒng)
- 一種老年健康監(jiān)護(hù)系統(tǒng)用數(shù)據(jù)及資源存儲層
- 數(shù)據(jù)模型生成方法和數(shù)據(jù)倉庫生成方法、裝置及電子設(shè)備
- 一種解耦合的彈性數(shù)據(jù)倉庫架構(gòu)
- 數(shù)據(jù)同步方法、裝置、存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)倉庫管理方法及系統(tǒng)
- 旋光異構(gòu)體分離劑和旋光異構(gòu)體分離柱
- 一種多域異構(gòu)云通信平臺裝置
- CPU+MIC異構(gòu)平臺下的大渦模擬算法優(yōu)化處理方法
- 一種基于CIM/XML的主備數(shù)據(jù)異構(gòu)方法
- 一種基于多源異構(gòu)數(shù)據(jù)分析的大屏廣告定向投放系統(tǒng)及方法
- D-阿洛酮糖3-差向異構(gòu)酶的固定化方法
- 靶向DNA大溝并抑制拓?fù)洚悩?gòu)酶的石墨烯堿及其制法和用途
- 一種異構(gòu)數(shù)據(jù)源拖拽的數(shù)據(jù)可視化設(shè)計(jì)平臺
- 靶向DNA大溝并抑制拓?fù)洚悩?gòu)酶的石墨烯堿及其制法和用途
- 一種同時檢測硝基苯酚異構(gòu)體的電化學(xué)傳感器及制備方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





