[發明專利]對全量源數據進行抽取轉換加載的裝置及方法有效
| 申請號: | 200910080065.0 | 申請日: | 2009-03-18 |
| 公開(公告)號: | CN101504664A | 公開(公告)日: | 2009-08-12 |
| 發明(設計)人: | 陳慧;俞斌;趙亞華;張海軍 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100031北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 全量源 數據 進行 抽取 轉換 加載 裝置 方法 | ||
技術領域
本發明涉及數據庫源數據處理技術領域,尤其涉及一種對全量源數據進行抽取轉換加載的裝置及方法。
背景技術
對于企業級數據倉庫(EDW)來說,其最基本的職能是對來自業務源系統的數據按一定的規則進行抽取、轉換和加載(即Extract、Transform和Load,ETL)。由于源系統的多樣性,來自源系統的數據也是形形色色的,無法用單一的規則來加以抽取轉換。企業級數據倉庫就是要把各種屬性不一、規則多變的數據轉換成滿足一定規律、符合數據庫相關范式的標準化的數據信息,這對于任何一個擁有大量數據信息并以此為生存發展之根本的企業來說,都是非常重要的。特別是對于大型國有商業銀行,由于其數據量是海量的,如何將這海量的數據抽取并整理成一整套有序、規范化的信息系統,是EDW的重中之重。
在業務源系統中,除了少數幾種數據會保留歷史信息(例如,營銷系統金額類數據),大多數數據在源系統中是不保留歷史的,而只維護一個當前的最新數據值。也就是說,如果某條記錄的值一旦發生了變化,源系統中就會立刻更新并覆蓋原有數值,記錄中的原有信息便不再保存。而企業級數據倉庫可以彌補這一不足,歷史拉鏈型的加工轉換方法就可以將原本只有當前最新值的記錄以歷史時間段的方式進行加載并保存進數據庫中。當記錄屬性值發生變化時,數據倉庫不會在原有記錄上進行修改更新,而是重新生成一條帶有最新屬性值的記錄,并對新、舊記錄都打上時間標簽。這就是標準歷史拉鏈算法的功效。
但是,標準歷史拉鏈算法有其局限性:標準歷史拉鏈算法的處理對象僅限于增量源數據(該增量源數據是與源數據相關的數據),即對于新增或者更新的數據可以有效地處理出它的歷史軌跡。但是,當源數據下載方式是全量時,由于標準歷史拉鏈算法并不會對源系統中已經刪去的記錄做“關鏈”處理,標準歷史拉鏈算法就無法準確地勾畫出數據的歷史軌跡(標準歷史拉鏈算法處理流程圖參見圖1)。對于這種全量源數據下載的情況,標準歷史拉鏈算法會導致出現許多錯誤的“當前仍然有效”的數據記錄,該算法不再滿足實際要求。
因此,迫切需要一種能夠處理全量源數據的數據抽取轉換加載的技術,以滿足數據庫對全量源數據保留歷史軌跡的需求,對每一次的全量數據進行掃描并勾畫出相關歷史軌跡,解決企業級數據庫項目中遇到的標準歷史拉鏈算法無法滿足全量源數據處理要求的問題。
發明內容
(一)要解決的技術問題
有鑒于此,本發明的主要目的在于提供一種對全量源數據進行抽取轉換加載的裝置及方法,以滿足數據庫對全量源數據保留歷史軌跡的需求,解決企業級數據庫項目中遇到的標準歷史拉鏈算法無法滿足全量源數據處理要求的問題。
(二)技術方案
為達到上述目的的一個方面,本發明提供了一種對全量源數據進行抽取轉換加載的裝置,該裝置包括數據接收單元、數據處理單元、數據導出單元和數據庫,該數據庫具有一臨時工作區和一基礎區,且在該數據庫的基礎區中具有一目標表,其中,
數據接收單元,連接于數據庫,用于接收來自于源系統的全量源數據文件,并將該全量源數據文件加載到數據庫中的臨時工作區;
數據處理單元,連接于數據庫,用于對加載到數據庫臨時工作區中的全量源數據文件進行抽取轉換加載處理,并以歷史拉鏈形式將處理后的全量源數據保存到數據庫中;
數據導出單元,連接于數據庫,用于將保存到數據庫中的全量源數據導出,供其他系統使用;
所述數據庫具有的臨時工作區,能夠為所述數據處理單元創建臨時表提供空間;所述數據處理單元創建的臨時表包括:臨時表CUR、臨時表PRE、臨時表INS和臨時表UPD,所述臨時表CUR、臨時表PRE、臨時表INS、臨時表UPD的結構與目標表的結構一致,且臨時表CUR、臨時表PRE、臨時表INS和臨時表UPD是可變臨時表,僅存在于會話期間,當會話結束時將自動被刪除;在所述目標表中,結束日期等于最大日期的數據,是當前有效的數據;結束日期不等于最大日期的數據,是當前已經無效的數據;對于所述目標表中無效的數據,需要將其進行“關鏈”,具體過程如下:將對應記錄的“結束日期”字段置為當前批量日期,則該記錄的有效期是截止到當前的批量日期;采用臨時表UPD中的記錄和目標表中的記錄進行比對,能夠查找目標表中哪些數據是“過期”、“作廢”的無效數據;采用目標表中的記錄和臨時表UPD中的記錄作逐條比對,若匹配成功,則將該條記錄的“結束日期”更改為當前批量日期,否則不變。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910080065.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





