[發明專利]企業級數據倉庫系統的樣本數據獲取方法及裝置有效
| 申請號: | 201010611704.4 | 申請日: | 2010-12-28 |
| 公開(公告)號: | CN102073698A | 公開(公告)日: | 2011-05-25 |
| 發明(設計)人: | 金雁峰;鄔敏煒;黃兆斌;馬雯瑾 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 任默聞 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 企業級 數據倉庫 系統 樣本 數據 獲取 方法 裝置 | ||
技術領域
本發明涉及計算機數據倉庫技術領域,具體地,涉及一種企業級數據倉庫系統的樣本數據獲取方法及裝置。
背景技術
隨著企業級數據倉庫系統的上游應用不斷增加和基礎區、匯總層與集市區的數據量持續擴大,又由于企業級數據倉庫系統基礎區數據是按范式化的模型和抽象的主題進行存放的,基礎模型和數據變得愈加復雜而難以理解。以及,由于生產環境的數據安全考慮以及企業級數據倉庫系統本身數據量異常龐大等原因,要想做到在生產環境或開發環境對全量數據進行檢查與研究分析工作是不可能的,而只能通過抽取樣本數據進行研究。這就對樣本數據提出了要求,有可用價值的樣本數據需要具有以下特點:
(1)保持企業級數據倉庫系統原有全量數據的模型屬性;
(2)保持全量數據的技術性特征(例如數據完整性特征);
(3)覆蓋所有數據倉庫涉及的業務;
(4)數據規模應小于生產環境,從而能夠完整地部署在磁盤空間不富裕的開發環境。
只有滿足以上這幾點要求的樣本數據才是理論上有效的。
然而,面對以上的樣本數據需求,數據準備過程有著相當大的難度。在企業級數據倉庫系統項目中,基礎區、匯總區和集市區的實體個數超過了3000多個,為提取完整的樣本數據,每一個實體的對應物理表都需要開發和維護一個腳本,以抽取符合上述標準的樣本數據,這個工作量無疑是巨大的。
另外,由于企業級數據倉庫系統的上游系統不斷增加,數據模型在每個版本的開發過程中都需要作不同程度的修改,從而可能導致原有實體的樣本數據抽取腳本(以下簡稱抽取腳本)邏輯已無法保證樣本數據的顯著特征,這樣一來,樣本數據就失去了實際的意義。因此,為了確保樣本數據對企業級數據倉庫系統后續開發的重要指導意義,在模型調整的同時需要對相應的抽取腳本做一定的維護。對于超過3000多個實體的企業級數據倉庫系統項目來說,大量抽取腳本的編寫與變更維護費時費力,嚴重影響了數據的處理效率。
綜上所述,目前的企業級數據倉庫系統樣本數據的抽取過程中存在費時費力、效率低下的問題。
發明內容
本發明實施例的主要目的在于提供一種企業級數據倉庫系統的樣本數據獲取方法及裝置,以解決現有技術中的企業級數據倉庫系統樣本數據的抽取過程費時費力、效率低下的問題。
為了實現上述目的,本發明實施例提供一種企業級數據倉庫系統的樣本數據獲取方法,該方法包括:解析企業級數據倉庫系統的包括模型關聯關系信息的邏輯模型信息,以獲取所述的模型關聯關系信息;根據所述的模型關聯關系信息生成樣本數據抽取配置信息;根據所述的樣本數據抽取配置信息、以及預先設置的抽取參數生成全量抽取腳本;對所述的全量抽取腳本進行迭代運算以確定全量抽取腳本調度的依賴關系;根據所述的依賴關系生成基于有向圖數據結構的調度文件;根據所述的調度文件并行調度所述的全量抽取腳本以獲取樣本數據。
優選地,根據所述的調度文件并行調度所述的全量抽取腳本以獲取樣本數據之后,上述的方法還包括:如果獲取樣本數據失敗,則記錄失敗信息;根據所述的失敗信息重新生成全量抽取腳本;對所述重新生成的全量抽取腳本進行迭代運算以確定新的依賴關系;根據所述新的依賴關系生成基于有向圖數據結構的新調度文件;根據所述新調度文件并行調度所述重新生成的全量抽取腳本以重新獲取樣本數據。
具體地,解析企業級數據倉庫系統的包括模型關聯關系信息的邏輯模型信息之后,所述的方法還包括:查找符合預定規則的模型主題;根據所述符合預定規則的模型主題獲取相應的物理表。
根據所述的樣本數據抽取配置信息、以及預先設置的抽取參數生成全量抽取腳本包括:根據所述預先設置的抽取參數確定所述物理表的樣本抽取邏輯;結合所述的樣本數據抽取配置信息和所述物理表的樣本抽取邏輯生成所述的全量抽取腳本。
具體地,所述根據所述的模型關聯關系信息生成樣本數據抽取配置信息包括:根據所述的模型關聯關系信息對業務實體進行分類;根據分類的業務實體分別生成樣本數據抽取配置信息。
根據所述的調度文件并行調度所述的全量抽取腳本以獲取樣本數據包括:根據不同的模型主題分別配置調度規則;根據所述的調度文件結合所述的調度規則并行調度所述的全量抽取腳本以獲取樣本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010611704.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種含支撐件的傳送帶
- 下一篇:板材上料定位機構





