[發(fā)明專(zhuān)利]基于海量數(shù)據(jù)的數(shù)據(jù)抽取方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201610365351.1 | 申請(qǐng)日: | 2016-05-27 |
| 公開(kāi)(公告)號(hào): | CN107436902B | 公開(kāi)(公告)日: | 2019-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 閻開(kāi)品;葛勝利 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類(lèi)號(hào): | G06F16/25 | 分類(lèi)號(hào): | G06F16/25 |
| 代理公司: | 北京成創(chuàng)同維知識(shí)產(chǎn)權(quán)代理有限公司 11449 | 代理人: | 蔡純;張靖琳 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 海量 數(shù)據(jù) 抽取 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于海量數(shù)據(jù)的數(shù)據(jù)抽取方法和系統(tǒng),其中,所述方法能包括:根據(jù)設(shè)定的條件,將指定數(shù)據(jù)源表中的數(shù)據(jù)分為動(dòng)態(tài)源數(shù)據(jù)和靜態(tài)源數(shù)據(jù);對(duì)所述靜態(tài)源數(shù)據(jù)進(jìn)行初始化處理,得到靜態(tài)目標(biāo)數(shù)據(jù);為所述動(dòng)態(tài)源數(shù)據(jù)配置抽取任務(wù),執(zhí)行所述抽取任務(wù)抽取動(dòng)態(tài)源數(shù)據(jù),得到動(dòng)態(tài)目標(biāo)數(shù)據(jù);將所述靜態(tài)目標(biāo)數(shù)據(jù)和動(dòng)態(tài)目標(biāo)數(shù)據(jù)分別存儲(chǔ)成對(duì)應(yīng)的靜態(tài)目標(biāo)數(shù)據(jù)文件和動(dòng)態(tài)目標(biāo)數(shù)據(jù)文件,并入指定數(shù)據(jù)倉(cāng)庫(kù)。所述系統(tǒng)包括分類(lèi)模塊、靜態(tài)數(shù)據(jù)處理模塊、動(dòng)態(tài)數(shù)據(jù)處理模塊和數(shù)據(jù)存儲(chǔ)模塊。本發(fā)明減少了抽取任務(wù)數(shù)量,提高了數(shù)據(jù)抽取的效率,降低了后期運(yùn)維成本和難度,滿(mǎn)足了業(yè)務(wù)快速發(fā)展的變化和需求。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫(kù)數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地說(shuō),涉及一種基于海量數(shù)據(jù)的數(shù)據(jù)抽取方法和系統(tǒng)。
背景技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,簡(jiǎn)稱(chēng)DW或DWH),是為企業(yè)級(jí)別的決策制定過(guò)程提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合,是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)信息提供平臺(tái),它從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),并為用戶(hù)提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。因而,對(duì)于一些企事業(yè),均構(gòu)建有自己的數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要多個(gè)環(huán)節(jié),從數(shù)據(jù)的抽取、存儲(chǔ)到使用,每一步都至關(guān)重要。其中作為第一步的數(shù)據(jù)抽取,數(shù)據(jù)抽取效率的高低和抽取方法是否靈活,將直接影響整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的抽取壓力和數(shù)據(jù)的快速使用。
目前數(shù)據(jù)倉(cāng)庫(kù)中常見(jiàn)的抽取方式是離線抽取,通常一個(gè)數(shù)據(jù)表配置一個(gè)抽取任務(wù),每天通過(guò)調(diào)度系統(tǒng)根據(jù)設(shè)定的時(shí)間規(guī)則從線上表進(jìn)行抽取。抽取策略包括全量抽取和增量抽取。例如,可以對(duì)昨天的數(shù)據(jù)根據(jù)每條記錄的創(chuàng)建或修改時(shí)間進(jìn)行增量或全量抽取,對(duì)于日志表進(jìn)行流水日志方式的抽取。
伴隨著公司業(yè)務(wù)的不斷發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)會(huì)迅速地從幾百萬(wàn)增加到數(shù)億級(jí),與此同時(shí),數(shù)據(jù)表中的數(shù)據(jù)也會(huì)根據(jù)業(yè)務(wù)情況變的越來(lái)越多樣性。如果只是采用單一不變的抽取方式,已經(jīng)不能滿(mǎn)足當(dāng)今數(shù)據(jù)抽取的快速變化的需求。例如,針對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的采購(gòu)訂單明細(xì)表,從采購(gòu)單下單到正式采購(gòu)期間,線上采銷(xiāo)人員可以對(duì)剛提交的采購(gòu)單進(jìn)行刪除(物理刪除)。訂單數(shù)據(jù)先是被記錄到采購(gòu)訂單明細(xì)表中,然后又被物理刪除。根據(jù)現(xiàn)有技術(shù),為了數(shù)據(jù)準(zhǔn)確性,對(duì)有物理刪除記錄的數(shù)據(jù)源表采取每天整表全量抽取。而對(duì)于一些大型公司來(lái)說(shuō),采購(gòu)訂單量很大,采購(gòu)訂單明細(xì)表的數(shù)據(jù)就更大。在這種情況下采用整表全量抽取的方式,顯然既浪費(fèi)抽取時(shí)間,又沒(méi)有必要。因?yàn)楫?dāng)線上采銷(xiāo)人員對(duì)剛提交的采購(gòu)單刪除時(shí),對(duì)于采購(gòu)訂單明細(xì)表而言,只有近期數(shù)據(jù)發(fā)生了變化,而歷史已采購(gòu)的數(shù)據(jù)是沒(méi)有變動(dòng)的。
另外,對(duì)于海量數(shù)據(jù),根據(jù)現(xiàn)有技術(shù),一個(gè)具有大量數(shù)據(jù)的數(shù)據(jù)表只能通過(guò)創(chuàng)建多任務(wù)分段同時(shí)抽取。這種方式會(huì)導(dǎo)致任務(wù)多、后期維護(hù)成本高。
再有,現(xiàn)有技術(shù)中的抽取時(shí)間戳字段較為固定和死板(通常是創(chuàng)建或修改時(shí)間),不能根據(jù)業(yè)務(wù)情況或需求進(jìn)行靈活設(shè)定,最終只能期待線上研發(fā)對(duì)源表進(jìn)行結(jié)構(gòu)改造。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題在于,針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于海量數(shù)據(jù)的數(shù)據(jù)抽取方法和系統(tǒng),用于提高數(shù)據(jù)抽取的效率,滿(mǎn)足業(yè)務(wù)快速發(fā)展的變化和需求。
為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了一種基于海量數(shù)據(jù)的數(shù)據(jù)抽取方法,其中,包括:
根據(jù)設(shè)定的條件,將指定數(shù)據(jù)源表中的數(shù)據(jù)分為動(dòng)態(tài)源數(shù)據(jù)和靜態(tài)源數(shù)據(jù);
對(duì)所述靜態(tài)源數(shù)據(jù)進(jìn)行初始化處理,得到靜態(tài)目標(biāo)數(shù)據(jù);
為所述動(dòng)態(tài)源數(shù)據(jù)配置抽取任務(wù),執(zhí)行所述抽取任務(wù)抽取動(dòng)態(tài)源數(shù)據(jù),得到動(dòng)態(tài)目標(biāo)數(shù)據(jù);
將所述靜態(tài)目標(biāo)數(shù)據(jù)和動(dòng)態(tài)目標(biāo)數(shù)據(jù)分別存儲(chǔ)成對(duì)應(yīng)的靜態(tài)目標(biāo)數(shù)據(jù)文件和動(dòng)態(tài)目標(biāo)數(shù)據(jù)文件,并入指定數(shù)據(jù)倉(cāng)庫(kù)。
優(yōu)選地,所述根據(jù)設(shè)定的條件,將數(shù)據(jù)表中的數(shù)據(jù)分為動(dòng)態(tài)源數(shù)據(jù)和靜態(tài)源數(shù)據(jù)的步驟具體為:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610365351.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:吸引導(dǎo)管
- 下一篇:蒸汽電熨斗(ETA?73)
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





