[發明專利]基于值?列映射的通用單字段拆分數據抽取方法和裝置有效
| 申請號: | 201410536559.6 | 申請日: | 2014-10-13 |
| 公開(公告)號: | CN104239580B | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 徐武平;徐愛萍 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 張火春 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 映射 通用 字段 拆分 數據 抽取 方法 裝置 | ||
1.基于值-列映射的通用單字段拆分數據抽取方法,其特征在于,包括如下步驟:
步驟1:構建拆分配置表;
步驟1.1對字段拆分適用對象進行配置;
步驟1.11選擇配置表的源數據庫DBS和源數據表S;
步驟1.12分別設置源數據表S的描述字段F1、F2、F3、…、拆分字段V、數據說明字段K;
步驟1.13選擇配置表的目的數據庫DBD和目的表D;
步驟1.14設置目的表描述字段序列X1、X2、X3、…,及其與源數據表S的描述字段F1、F2、F3、…的對應關系;
步驟1.2對值-列映射關系的數據結構進行配置;將源數據表S中字段K的所有取值K1,K2,K3,…,Ki與目的表D中的數據字段V1、V2、V3、…、Vj之間建立一一映射關系,表示為M={(Ki,Vj)},其中Ki表示字段K中的第i個數值,Vj表示目的表D中的第j個字段;
步驟2:讀取配置表中的配置信息完成數據的抽取與轉換;
步驟2.1按照配置表中定義的源數據庫DBS和源數據表S,連接數據庫DBS,并從源數據表S中抽取所有數據行,設為數據集R;
步驟2.2按照配置表中定義的目的數據庫DBD和目的數據表D,連接數據庫DBD;
步驟2.3從配置表中讀取拆分值-列映射關系集合M;
步驟2.4對被抽取數據集合R中的每一行r執行如下操作:
2.41在值-列映射集合M中查找Ki等于r行字段K當前數值的值-列映射Vj;
2.42在目的數據庫DBD的目的數據表D中查詢描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同數值的數據行;
2.43如果2.42的查詢結果為空,則執行2.44插入新數據,否則執行2.45更新原有數據;
2.44在目的數據庫DBD的目的數據表D中執行插入新數據行,令新數據行的描述字段X1、X2、X3、…的值依次等于源數據表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
2.45在目的數據庫DBD的目的數據表D中執行更新數據行語句,令該行的字段Vj的值等于源數據表S中行r的拆分字段V的值;
2.46檢查當前行是否是集合R的最后一行,如不是則取下一行轉2.42,否則轉步驟3結束;
步驟3結束。
2.基于值-列映射的通用單字段拆分數據抽取裝置,其特征在于,包括如下模塊:
構建拆分配置表模塊:
用于對字段拆分適用對象進行配置;
包括用于選擇配置表的源數據庫DBS和源數據表S;
包括用于分別設置源數據表S的描述字段F1、F1、F3、…、拆分字段V、數據說明字段K;
包括用于選擇配置表的目的數據庫DBD和目的表D;
包括用于設置目的表描述字段序列X1、X2、X3、…,及其與源數據表S的描述字段F1、F2、F3、…的對應關系;
用于對值-列映射關系的數據結構進行配置;
還包括用于將源數據表S中字段K的所有取值K1,K2,K3,…,Ki與目的表D中的數據字段V1、V2、V3、…、Vj之間建立一一映射關系,表示為M={(Ki,Vj)},其中Ki表示字段K中的第i個數值,Vj表示目的表D中的第j個字段;
抽取與轉換模塊:用于讀取配置表中的配置信息完成數據的抽取與轉換;
包括用于按照配置表中定義的源數據庫DBS和源數據表S,連接數據庫DBS,并從源數據表S中抽取所有數據行,設為數據集R;
包括用于按照配置表中定義的目的數據庫DBD和目的數據表D,連接數據庫DBD;
包括用于從配置表中讀取拆分值-列映射關系集合M;
還包括用于對被抽取數據集合R中的每一行r執行如下操作的模塊:
查找模塊:用于在值-列映射集合M中查找Ki等于r行字段K當前數值的值-列映射Vj;
查詢模塊:用于在目的數據庫DBD的目的數據表D中查詢描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同數值的數據行;
更新模塊:用于如果查詢模塊的查詢結果為空,則進入插入模塊插入新數據,否則執行匹配模塊更新原有數據;
插入模塊:用于在目的數據庫DBD的目的數據表D中執行插入新數據行,令新數據行的描述字段X1、X2、X3、…的值依次等于源數據表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
匹配模塊:用于在目的數據庫DBD的目的數據表D中執行更新數據行語句,令該行的字段Vj的值等于源數據表S中行r的拆分字段V的值;
轉換模塊:用于檢查當前行是否是集合R的最后一行,如不是則取下一行轉進入查詢模塊處理,否則結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410536559.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:衣柜(291)
- 下一篇:一種特高壓斷路器連桿傳動機構及傳動方法





