[發明專利]元數據處理方法及設備有效
| 申請號: | 201110235136.7 | 申請日: | 2011-08-16 |
| 公開(公告)號: | CN102279886A | 公開(公告)日: | 2011-12-14 |
| 發明(設計)人: | 楊大鵬;李炅宇;王彥博;靳軍;趙俊 | 申請(專利權)人: | 中國民生銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 馬爽 |
| 地址: | 100031 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 設備 | ||
技術領域
本發明涉及元數據處理技術,尤其涉及一種元數據處理方法及設備。
背景技術
隨著辦公自動化的快速發展,信息已成為現代企業的重要資源,是企業運用科學管理、決策分析的基礎,用于實現獨立數據管理的數據倉庫也得到了極為廣泛的應用。
數據抽取、轉換和加載(Extraction-Transformation-Loading,ETL)是構建數據倉庫的重要環節,其負責將分布的、異構數據源中的數據,如關系數據和平面數據文件等,抽取到臨時中間層后進行清洗、轉換和加載,并整合到數據倉庫中,成為聯機分析處理和數據挖掘的基礎。ETL過程采用元數據方法進行集中管理。其中,元數據是描述數據的數據(data?about?data),其對于ETL的集中表現為:定義數據源的位置及數據源的屬性、確定從源數據到目標數據的對應規則、確定相關的業務邏輯和在數據實際加載前的其他必要的準備工作等。
現有技術中,在基于數據倉庫實現數據管理時,需通過在進行ETL之前所設定的元數據來獲知構建數據倉庫時的數據流向,從而建立起數據關聯,避免產生數據孤島或信息盲區。但由于在實際的ETL過程中,可能由于一些原因使得實際數據流向與預設數據流向存在差異。此時,若仍基于預先設定的元數據來進行數據管理,便無法準確獲知數據之間的流向關系,從而無法對數據倉庫進行可靠、有效的管理。
發明內容
針對上述缺陷,本發明提供一種元數據處理方法及設備,用以實現獲取能夠反映真實數據流向的元數據。
根據本發明的一方面,提供一種元數據處理方法,包括:
元數據處理設備接收用戶發送的元數據處理指令,響應所述元數據處理指令獲取數據抽取、轉換和加載ETL執行日志,并從數據倉庫獲取第一數據庫定義語言DDL命令,其中所述第一DDL命令用于對所述ETL執行日志包括的數據對象進行節點定義;
所述元數據處理設備對所獲取的ETL執行日志進行解析,以獲取第二DDL命令和數據操作語言DML命令,其中所述第二DDL命令用于對所述ETL執行日志包括的臨時對象進行節點定義,所述DML命令用于記錄在ETL執行過程中所述數據對象和/或所述臨時對象的轉換操作;
所述元數據處理設備通過解析所述第一DDL命令、所述第二DDL命令和所述DML命令獲取用于表示所述數據對象和所述臨時對象的數據流向的元數據,并向所述用戶反饋所述元數據。
根據本發明的另一方面,還提供一種元數據處理設備,其特征在于,包括:
獲取模塊,用于獲取ETL執行日志,并從數據倉庫獲取第一DDL命令,其中所述第一DDL命令用于對所述ETL執行日志包括的數據對象進行節點定義;
日志解析模塊,用于對所獲取的ETL執行日志進行解析,以獲取第二DDL命令和數據操作語言DML命令,其中所述第二DDL命令用于對所述ETL執行日志包括的臨時對象進行節點定義,所述DML命令用于記錄在ETL執行過程中所述數據對象和/或所述臨時對象的轉換操作;
元數據獲取模塊,用于通過解析所述第一DDL命令、所述第二DDL命令和所述DML命令獲取用于表示所述數據對象和所述臨時對象的數據流向的元數據。
根據本發明的元數據處理方法及設備,由于是通過對真實運行產生的ETL執行日志進行DDL解析和DML解析來獲取對象之間的流向關系,所以所獲得的表征對象之間的流向關系的元數據與真實執行情況一致,能夠有效、準確地反映出ETL執行過程中的真實數據流向,從而可基于該元數據進行可靠的數據相關性分析及系統性能優化等。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明元數據處理方法的流程示意圖。
圖2為應用本發明元數據處理方法的數據倉庫系統架構圖。
圖3為本發明元數據處理設備的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
圖1為本發明元數據處理方法的流程示意圖。如圖1所示,該元數據處理方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民生銀行股份有限公司,未經中國民生銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110235136.7/2.html,轉載請聲明來源鉆瓜專利網。





