[發明專利]數據抽取及轉化的方法和裝置在審
| 申請號: | 201910806087.4 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110515934A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 馬國春;張輝帥;董心景;崔永發;王詩博;陸軼杰;周琳華 | 申請(專利權)人: | 上海眾恒信息產業股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 31254 上海集信知識產權代理有限公司 | 代理人: | 周成<國際申請>=<國際公布>=<進入國 |
| 地址: | 200040 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據抽取 異構數據庫 綜合數據庫 代碼獲取 數據集成 數據清洗 數據校驗 數據裝載 轉化 方法和裝置 抽取數據 存儲組件 數據整合 數據轉化 轉換組件 整合 保存 轉換 統一 | ||
本發明提出一種數據抽取及轉化的方法,該方法從異構數據庫中抽取數據,將數據轉化后保存到綜合數據庫中,該方法包括:數據抽取步驟、代碼獲取步驟、數據清洗步驟、轉換步驟、數據集成步驟、數據裝載步驟和數據校驗步驟。本發明還提出一種數據抽取及轉化的裝置,該裝置包括:存儲組件、數據抽取組件、代碼獲取組件、數據清洗組件、轉換組件、數據集成組件、數據裝載組件和數據校驗組件。本發明的數據抽取及轉化的方法和裝置能夠對如何對異構數據庫中的數據進行整合,將異構數據庫中的數據整合到統一的綜合數據庫中。
技術領域
本發明涉及數據處理技術領域,更具體地說,涉及在異構數據庫之間進行數據抽取和轉化的技術。
背景技術
在政府部門和大型企業中,會使用龐大復雜的管理系統。隨著技術的進步,管理系統也會進行升級換代。在升級換代的過程中,不可避免地會涉及到數據的遷徙。大型的管理系統中,通常將數據保存在數據庫中。設立在不同分部或者建立與不同時期的數據庫會采用不同的數據庫技術,這些數據庫形成異構數據庫。在管理系統升級時,如何對異構數據庫中的數據進行整合,是一個棘手的問題。
發明內容
本發明旨在提出一種在異構數據庫之間進行數據整合的技術。
根據本發明的一實施例,提出一種數據抽取及轉化的方法,該方法從異構數據庫中抽取數據,將數據轉化后保存到綜合數據庫中,該方法包括:
數據抽取步驟,從異構數據庫中抽取數據并保存到轉儲數據庫中,在轉儲數據庫中的數據保留原始狀態;
代碼獲取步驟,從異構數據庫中獲取代碼并保存到代碼庫中,在代碼庫中的代碼保留原始狀態;
數據清洗步驟,對轉儲數據庫中的數據應用清洗規則,未通過清洗的數據為首批問題數據,將首批問題數據保存到問題數據庫中;
轉換步驟,對經清洗的數據進行數據轉換,對代碼庫中的代碼進行代碼轉換;
數據集成步驟,對經轉換的數據進行集成,建立數據之間的關聯關系;
數據裝載步驟,將經集成的數據和經轉換的代碼保存到綜合數據庫中;
數據校驗步驟,對綜合數據庫中的數據應用校驗規則,未通過校驗的數據為次批問題數據,將次批問題數據從綜合數據庫中移出并保存到問題數據庫中。
根據本發明的一實施例,在數據抽取步驟中,被抽取到轉儲數據庫中的數據保留原始狀態,包括原始字符集、原始格式和特殊數據項的原始值。
根據本發明的一實施例,轉換步驟包括:
字符集轉換步驟,將經清洗的數據的原始字符集轉換為統一字符集;
格式轉換步驟,將經清洗的數據的原始格式轉換為綜合數據庫的統一格式;
值轉換步驟,將經清洗的數據中特殊數據項的原始值轉換為綜合數據庫的替換值;
代碼轉換步驟,將代碼庫中來自異構數據庫的代碼轉換為綜合數據庫中的統一代碼。
根據本發明的一實施例,字符集轉換步驟包括字符編碼轉換、數據庫字符集轉換和中文字符編碼集合轉換;
格式轉換步驟包括數據類型轉換、數據格式轉換和度量單位轉換;
值轉換步驟包括特殊數據項的值替換、特殊數據項的拆分和特殊數據項的合并;
在執行轉換步驟時,從元數據庫中導入元數據。
根據本發明的一實施例,在數據集成步驟中,將經轉換的數據按照要素和層次進行組織,并按照要素和層次建立數據之間的關聯。
根據本發明的一實施例,提出一種數據抽取及轉化的裝置,該裝置從異構數據庫中抽取數據,將數據轉化后保存到綜合數據庫中,該裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海眾恒信息產業股份有限公司,未經上海眾恒信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910806087.4/2.html,轉載請聲明來源鉆瓜專利網。





