[發(fā)明專利]數(shù)據(jù)抽取及轉(zhuǎn)化的方法和裝置在審
| 申請?zhí)枺?/td> | 201910806087.4 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110515934A | 公開(公告)日: | 2019-11-29 |
| 發(fā)明(設(shè)計(jì))人: | 馬國春;張輝帥;董心景;崔永發(fā);王詩博;陸軼杰;周琳華 | 申請(專利權(quán))人: | 上海眾恒信息產(chǎn)業(yè)股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 31254 上海集信知識產(chǎn)權(quán)代理有限公司 | 代理人: | 周成<國際申請>=<國際公布>=<進(jìn)入國 |
| 地址: | 200040 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)抽取 異構(gòu)數(shù)據(jù)庫 綜合數(shù)據(jù)庫 代碼獲取 數(shù)據(jù)集成 數(shù)據(jù)清洗 數(shù)據(jù)校驗(yàn) 數(shù)據(jù)裝載 轉(zhuǎn)化 方法和裝置 抽取數(shù)據(jù) 存儲組件 數(shù)據(jù)整合 數(shù)據(jù)轉(zhuǎn)化 轉(zhuǎn)換組件 整合 保存 轉(zhuǎn)換 統(tǒng)一 | ||
1.一種數(shù)據(jù)抽取及轉(zhuǎn)化的方法,其特征在于,該方法從異構(gòu)數(shù)據(jù)庫中抽取數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化后保存到綜合數(shù)據(jù)庫中,該方法包括:
數(shù)據(jù)抽取步驟,從異構(gòu)數(shù)據(jù)庫中抽取數(shù)據(jù)并保存到轉(zhuǎn)儲數(shù)據(jù)庫中,在轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)保留原始狀態(tài);
代碼獲取步驟,從異構(gòu)數(shù)據(jù)庫中獲取代碼并保存到代碼庫中,在代碼庫中的代碼保留原始狀態(tài);
數(shù)據(jù)清洗步驟,對轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)用清洗規(guī)則,未通過清洗的數(shù)據(jù)為首批問題數(shù)據(jù),將首批問題數(shù)據(jù)保存到問題數(shù)據(jù)庫中;
轉(zhuǎn)換步驟,對經(jīng)清洗的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,對代碼庫中的代碼進(jìn)行代碼轉(zhuǎn)換;
數(shù)據(jù)集成步驟,對經(jīng)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行集成,建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;
數(shù)據(jù)裝載步驟,將經(jīng)集成的數(shù)據(jù)和經(jīng)轉(zhuǎn)換的代碼保存到綜合數(shù)據(jù)庫中;
數(shù)據(jù)校驗(yàn)步驟,對綜合數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)用校驗(yàn)規(guī)則,未通過校驗(yàn)的數(shù)據(jù)為次批問題數(shù)據(jù),將次批問題數(shù)據(jù)從綜合數(shù)據(jù)庫中移出并保存到問題數(shù)據(jù)庫中。
2.如權(quán)利要求1所述的數(shù)據(jù)抽取及轉(zhuǎn)化的方法,其特征在于,在數(shù)據(jù)抽取步驟中,被抽取到轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)保留原始狀態(tài),包括原始字符集、原始格式和特殊數(shù)據(jù)項(xiàng)的原始值。
3.如權(quán)利要求1所述的數(shù)據(jù)抽取及轉(zhuǎn)化的方法,其特征在于,所述轉(zhuǎn)換步驟包括:
字符集轉(zhuǎn)換步驟,將經(jīng)清洗的數(shù)據(jù)的原始字符集轉(zhuǎn)換為統(tǒng)一字符集;
格式轉(zhuǎn)換步驟,將經(jīng)清洗的數(shù)據(jù)的原始格式轉(zhuǎn)換為綜合數(shù)據(jù)庫的統(tǒng)一格式;
值轉(zhuǎn)換步驟,將經(jīng)清洗的數(shù)據(jù)中特殊數(shù)據(jù)項(xiàng)的原始值轉(zhuǎn)換為綜合數(shù)據(jù)庫的替換值;
代碼轉(zhuǎn)換步驟,將代碼庫中來自異構(gòu)數(shù)據(jù)庫的代碼轉(zhuǎn)換為綜合數(shù)據(jù)庫中的統(tǒng)一代碼。
4.如權(quán)利要求3所述的數(shù)據(jù)抽取及轉(zhuǎn)化的方法,其特征在于,
字符集轉(zhuǎn)換步驟包括字符編碼轉(zhuǎn)換、數(shù)據(jù)庫字符集轉(zhuǎn)換和中文字符編碼集合轉(zhuǎn)換;
格式轉(zhuǎn)換步驟包括數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)格式轉(zhuǎn)換和度量單位轉(zhuǎn)換;
值轉(zhuǎn)換步驟包括特殊數(shù)據(jù)項(xiàng)的值替換、特殊數(shù)據(jù)項(xiàng)的拆分和特殊數(shù)據(jù)項(xiàng)的合并;
在執(zhí)行轉(zhuǎn)換步驟時(shí),從元數(shù)據(jù)庫中導(dǎo)入元數(shù)據(jù)。
5.如權(quán)利要求1所述的數(shù)據(jù)抽取及轉(zhuǎn)化的方法,其特征在于,在數(shù)據(jù)集成步驟中,將經(jīng)轉(zhuǎn)換的數(shù)據(jù)按照要素和層次進(jìn)行組織,并按照要素和層次建立數(shù)據(jù)之間的關(guān)聯(lián)。
6.一種數(shù)據(jù)抽取及轉(zhuǎn)化的裝置,其特征在于,該裝置從異構(gòu)數(shù)據(jù)庫中抽取數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化后保存到綜合數(shù)據(jù)庫中,該裝置包括:
存儲組件,存儲組件包括轉(zhuǎn)儲數(shù)據(jù)庫、問題數(shù)據(jù)庫和代碼庫;
數(shù)據(jù)抽取組件,數(shù)據(jù)抽取組件從異構(gòu)數(shù)據(jù)庫中抽取數(shù)據(jù)并保存到轉(zhuǎn)儲數(shù)據(jù)庫中,在轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)保留原始狀態(tài);
代碼獲取組件,代碼獲取組件從異構(gòu)數(shù)據(jù)庫中獲取代碼并保存到代碼庫中,在代碼庫中的代碼保留原始狀態(tài);
數(shù)據(jù)清洗組件,數(shù)據(jù)清洗組件對轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)用清洗規(guī)則,未通過清洗的數(shù)據(jù)為首批問題數(shù)據(jù),數(shù)據(jù)清洗組件將首批問題數(shù)據(jù)保存到問題數(shù)據(jù)庫中;
轉(zhuǎn)換組件,轉(zhuǎn)換組件對經(jīng)清洗的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,對代碼庫中的代碼進(jìn)行代碼轉(zhuǎn)換;
數(shù)據(jù)集成組件,數(shù)據(jù)集成組件對經(jīng)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行集成,并建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;
數(shù)據(jù)裝載組件,數(shù)據(jù)裝載組件將經(jīng)集成的數(shù)據(jù)和經(jīng)轉(zhuǎn)換的代碼保存到綜合數(shù)據(jù)庫中;
數(shù)據(jù)校驗(yàn)組件,數(shù)據(jù)校驗(yàn)組件對綜合數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)用校驗(yàn)規(guī)則,未通過校驗(yàn)的數(shù)據(jù)為次批問題數(shù)據(jù),數(shù)據(jù)校驗(yàn)組件將次批問題數(shù)據(jù)從綜合數(shù)據(jù)庫中移出并保存到問題數(shù)據(jù)庫中。
7.如權(quán)利要求6所述的數(shù)據(jù)抽取及轉(zhuǎn)化的裝置,其特征在于,由數(shù)據(jù)抽取組件抽取到轉(zhuǎn)儲數(shù)據(jù)庫中的數(shù)據(jù)保留原始狀態(tài),包括原始字符集、原始格式和特殊數(shù)據(jù)項(xiàng)的原始值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海眾恒信息產(chǎn)業(yè)股份有限公司,未經(jīng)上海眾恒信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910806087.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)抽取的方法及裝置
- 數(shù)據(jù)抽取裝置和方法
- 數(shù)據(jù)抽取方法及裝置
- 數(shù)據(jù)抽取方法和數(shù)據(jù)抽取系統(tǒng)
- 數(shù)據(jù)抽取系統(tǒng)和數(shù)據(jù)抽取方法
- 數(shù)據(jù)抽取方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲介質(zhì)
- 一種數(shù)據(jù)抽取方法及裝置
- 可定制化的多源數(shù)據(jù)庫的數(shù)據(jù)抽取方法、裝置及存儲介質(zhì)
- 數(shù)據(jù)處理方法、設(shè)備、系統(tǒng)及存儲介質(zhì)
- 一種多種數(shù)據(jù)抽取調(diào)度方法及系統(tǒng)
- 網(wǎng)格環(huán)境下模式復(fù)用的異構(gòu)數(shù)據(jù)庫訪問和集成方法
- 異構(gòu)數(shù)據(jù)庫報(bào)表生成方法、裝置和異構(gòu)數(shù)據(jù)庫系統(tǒng)
- 一種異構(gòu)數(shù)據(jù)庫存儲統(tǒng)一接口和數(shù)據(jù)庫訪問方法
- 一種多源異構(gòu)數(shù)據(jù)庫融合系統(tǒng)及其數(shù)據(jù)查詢方法
- 異構(gòu)數(shù)據(jù)庫間數(shù)據(jù)同步方法
- 訪問異構(gòu)數(shù)據(jù)庫的方法、裝置、設(shè)備、插件及存儲介質(zhì)
- 一種異構(gòu)數(shù)據(jù)庫的查詢方法、裝置、介質(zhì)、設(shè)備及系統(tǒng)
- 基于異構(gòu)數(shù)據(jù)庫的存儲查詢方法和裝置
- 一種異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換測試方法
- 維護(hù)多個數(shù)據(jù)庫中的集成數(shù)據(jù)一致性的裝置和方法
- 在數(shù)據(jù)庫環(huán)境通過背景同步的數(shù)據(jù)完整性
- 數(shù)據(jù)處理裝置
- 多源監(jiān)測數(shù)據(jù)集成系統(tǒng)及集成方法
- 基于電力調(diào)度數(shù)據(jù)網(wǎng)、電力綜合數(shù)據(jù)網(wǎng)的數(shù)據(jù)交互平臺
- 一種基于HBase的輸電線路綜合數(shù)據(jù)存儲方法
- 種質(zhì)資源識別管理設(shè)備及其操作方法
- 一種城市家庭生活垃圾分類收集交易運(yùn)維系統(tǒng)
- 一種皮膚病綜合數(shù)據(jù)分析診斷輔助系統(tǒng)
- 基于矢量數(shù)據(jù)與圖形化處理技術(shù)的綜合制圖方法
- 一種專業(yè)管線與綜合管線融合建庫更新方法





