[發明專利]一種為企業異構數據源系統消除重復記錄的方法在審
| 申請號: | 201611208774.9 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN107656950A | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 林殷;吳方才;朱雪松 | 申請(專利權)人: | 航天星圖科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 101399 北京市順義區國*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業 數據源 系統 消除 重復 記錄 方法 | ||
1.一種為企業異構數據源系統消除重復記錄的方法,該系統包括:數據倉庫、集成數據層和應用接口;
底層的各個異構數據源構成了系統的數據倉庫;
集成數據層封裝了異構數據庫集成系統的業務邏輯;
各種應用程序和對應的訪問接口構成了系統的應用接口;
集成數據層是實現異構數據庫中數據轉換的核心,目的是訪問各個數據源,集成數據源信息,協調各數據源間信息;集成數據層在各局部數據提供的共享數據的基礎之上建立一個全局的虛擬視圖,并不存儲實際的數據;具體包括:元數據DB、元數據管理器、綜合包裝器、中介器、應用層訪問統一接口、異構數據庫統一接口;
元數據DB用于儲存各異構數據庫的元數據庫信息;
元數據管理器用于制定集成系統的全局模式與局部數據庫的模式之間的轉換規則;
中介器用于異構數據庫的注冊、公共模型的生成和全局查詢請求的接收;
綜合包裝器用于實現數據位置和訪問的透明,對異構的數據進行包裝;
集成數據層對外提供了兩個統一接口,即應用層訪問統一接口和底層異構數據庫訪問接口;其功能是屏蔽各數據庫的差異,提供數據的透明訪問,使得使用者無需知道數據的數據源模式及具體的物理位置等信息,只需通過系統定義的與具體數據源無關的SQL語句進行訪問;
根據異構數據源的特點,對異構數據源中重復記錄消除的步驟具體包括如下:
第一步:根據實際情況進行需求分析,選擇元數據DB中儲存的各異構數據庫的元數據庫信息;
第二步:根據所述元數據庫信息制定消除規則,以方便隨后采用自動化消除和人工篩選相結合的方式對異構數據源進行消除;
第三步:根據數據倉庫的共享數據要求,提取局部數據庫的模式,根據異構數據源數據模式之間的關聯關系查找相似的元數據庫信息,并分別映射到異構數據源中相應的數據,并將其存儲于臨時數據庫中;
第四步:根據數據倉庫的數據庫規范及數據格式要求,對臨時數據庫中的數據記錄進行轉換,使之符合數據倉庫的標準;
第五步:利用消除規則,采用自動化消除清洗數據倉庫中的相似重復記錄。
2.根據權利要求1所述的方法,中介器由三個組件構成,包括:異構數據注冊模塊、查詢規劃模塊和結果合并過濾模塊;異構數據注冊模塊的主要功能是:在共享數據注冊階段,負責公共模型的建立以及異構數據庫的共享注冊;查詢規劃模塊的主要功能是:在數據集成階段,將客戶端提交的基于全局數據庫的標準查詢分解成針對各個異構數據庫的子查詢,并提交到相應的包裝器;結果合并過濾模塊的主要功能是:將各異構數據庫查詢返回的XML文檔進行合并,形成完整統一的查詢結果,反饋至客戶端瀏覽器。
3.根據權利要求1所述的方法,綜合包裝器由智能更新模塊、查詢結果轉換模塊和數據庫操作模塊三個組件構成;智能更新模塊采用spring框架的quartz任務定時的掃描由不同的異構數據庫上傳的XML描述文檔,通過解析這些XML文檔,實現數據自動更新;查詢結果轉換模塊負責將SQL查詢的結果轉換為XML文檔;數據庫操作模塊負責連接后臺各個異構數據庫,包括初始化數據庫連接、分配連接、封裝數據庫基本操作、關閉連接的功能。
4.根據權利要求1所述的方法,自動化消除清洗步驟包括選擇特定屬性,對其進行排序,排序后的記錄兩兩進行比對匹配,如果構成相似重復記錄,則將該記錄對合并。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技(北京)有限公司,未經航天星圖科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611208774.9/1.html,轉載請聲明來源鉆瓜專利網。





