[發明專利]SQL腳本的結構化元數據生成方法及數據地圖生成方法有效
| 申請號: | 201010238389.5 | 申請日: | 2010-07-23 |
| 公開(公告)號: | CN102339295A | 公開(公告)日: | 2012-02-01 |
| 發明(設計)人: | 何鴻凌;陳仲亮;魏春輝;李政;陶濤;林旭;薛勇 | 申請(專利權)人: | 中國移動通信集團公司;廣州石竹計算機軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G09B29/00 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 叢芳;彭曉玲 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | sql 腳本 結構 數據 生成 方法 地圖 | ||
技術領域
本發明涉及通信領域中數據管理技術,具體地,涉及SQL腳本的結構化元數據生成方法以及數據地圖生成方法。?
背景技術
目前,很多大型數據倉庫系統的ETL和數據處理過程大多采用SQL腳本來實現。這需要將這些SQL腳本的數據處理邏輯整理成元數據,以便構建數據倉庫系統的數據地圖。?
其中數據處理過程中的SQL腳本包含了大量數據流語義信息,這些信息是構成數據倉庫系統數據地圖的主要部分。因此業界一直尋求有效手段對SQL腳本的數據流語義信息進行結構化描述和圖形化展現。?
元數據對數據倉庫系統的結構化描述是以元模型的語義表達能力為基礎的。目前公認的數據倉庫領域元模型標準是對象管理組織(Object?Management?Group,簡稱OMG)發布的公共倉庫元模型(Common?Warehouse?Metamodel,簡稱CWM)規范。CWM規范中定義了轉換(也稱“Transformation”)包,以描述數據處理過程的數據流語義信息。?
圖一為現有技術中Transformation包對數據轉換處理(簡稱數據處理)過程的處理思路,如圖一所示,數據轉換處理活動(TransformationActivity)包含一組存在調度依賴關系的數據轉換處理環節(TransformationStep)。?
每個數據處理環節引用一個數據轉換處理任務(TransformationTask)。每個數據處理任務由一個到多個數據轉換處理單元(Transformation)組成。一個任務內的數據處理單元之間可能存在數據輸出和輸入的關聯關系。?
一個Transformation可以引用外掛的程序、查詢或者規則等任意操作對象,也可以通過轉換映射(TransformationMap)或轉換樹(TransformationTree)描述其數據處理邏輯。?
Transformation包基于這種描述思路,設置了13個類和這些類之間的12個關聯關系,具體見表一:?
表一轉換包類劃分和類之間的關聯關系?
由于CWM規范Transformation包的元模型各廠商獨立、與具體物理實現無關,而不同企業數據處理過程的物理實現存在較大差異,因此在技術實現時,往往需要結合具體情況確定合適的元模型。?
目前對SQL腳本元數據可分為兩種方式處理。第一種是以ETL工具(如DataStage、PowerCenter等)實現數據處理過程;第二種是以腳本程序實現數據處理過程。這兩種SQL腳本數據流語義信息分別采用不同的結構化處理方式。?
對于第一種,ETL工具中已經內置了相適應的元模型,一般不會對數據源定義的SQL腳本或者轉換處理環節中外掛的SQL腳本進行展開處理。表一中的“TransformationUse”類,就可以處理這種SQL腳本的引用關系。在圖形展現上,ETL工具也不會對所引用的SQL腳本進行結構化的拓撲展現。?
對于第二種,數據處理過程主要由SQL腳本實現。這種情況下目前并沒有形成成熟的SQL腳本的元數據處理方案,一般僅能夠滿足粗粒度的數據鏈路分析要求。然而這卻不能滿足日常開發和運行維護的需要。?
CWM規范作為數據倉庫領域的元模型標準,可以理解為一個與物理實現無關的邏輯模型。當需要建立數據倉庫系統的元數據管理體系時,則需要考慮元模型與物理如何實現對應。這時會出現如下兩種情況:物理實現的實體在CWM元模型中也有著對應的類和關聯關系。如果物理實現的實體沒有統一的、公認的定義,則這些實體在CWM元模型中很難有明確對應的類和關聯關系。如:數據處理過程的實現。?
對于采用ETL工具實現的數據處理過程,需要考慮ETL工具中的物理實現單元如何跟CWM元模型相對應。數據源采用SQL腳本來定義,或引用了外部SQL腳本程序時,應該如何處理SQL腳本的數據流語義信息。現有技術中SQL腳本所包含的數據流信息無法在元數據中體現出來,這會導致元數據的數據加工鏈路不連貫,無法進行有效的血統分析和影響分析。?
對于很多數據倉庫系統,大部分數據處理過程采用SQL腳本程序實現,腳本程序實體應該用CWM元模型的哪些類和關系?各種數據處理邏輯應該用CWM元模型的哪些類和關系?如何把握結構化描述的粒度等等,即使完全遵守CWM規范,元數據規格不一,也無法形成統一的數據地圖。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司;廣州石竹計算機軟件有限公司,未經中國移動通信集團公司;廣州石竹計算機軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010238389.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





