[發(fā)明專利]一種為企業(yè)異構(gòu)數(shù)據(jù)源系統(tǒng)消除重復(fù)記錄的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611208774.9 | 申請(qǐng)日: | 2016-12-23 |
| 公開(kāi)(公告)號(hào): | CN107656950A | 公開(kāi)(公告)日: | 2018-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 林殷;吳方才;朱雪松 | 申請(qǐng)(專利權(quán))人: | 航天星圖科技(北京)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京安博達(dá)知識(shí)產(chǎn)權(quán)代理有限公司11271 | 代理人: | 徐國(guó)文 |
| 地址: | 101399 北京市順義區(qū)國(guó)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 企業(yè) 數(shù)據(jù)源 系統(tǒng) 消除 重復(fù) 記錄 方法 | ||
【技術(shù)領(lǐng)域】
本發(fā)明屬于知識(shí)管理與數(shù)據(jù)集成技術(shù)領(lǐng)域。
【背景技術(shù)】
隨著大數(shù)據(jù)時(shí)代的到來(lái)和知識(shí)經(jīng)濟(jì)的深入發(fā)展,企業(yè)、研究所等研發(fā)和生產(chǎn)機(jī)構(gòu)愈發(fā)重視對(duì)知識(shí)的管理,實(shí)施了許多信息化軟件,并產(chǎn)生了大量的數(shù)據(jù),分別存儲(chǔ)于不同的數(shù)據(jù)庫(kù)中。而相對(duì)獨(dú)立、缺乏組織的知識(shí)難以發(fā)揮充分的價(jià)值,因此需要通過(guò)對(duì)異構(gòu)數(shù)據(jù)庫(kù)的集成將這些資源進(jìn)行有效的整合。
這些數(shù)據(jù)庫(kù)具有系統(tǒng)異構(gòu)、結(jié)構(gòu)異構(gòu)等特點(diǎn),稱為異構(gòu)數(shù)據(jù)庫(kù)。常規(guī)的集成方法多采取定制的方式,對(duì)現(xiàn)有的異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行集成,且要求在集成之前,完成對(duì)這些數(shù)據(jù)庫(kù)結(jié)構(gòu)的讀取工作,為后期構(gòu)建檢索語(yǔ)句提供基礎(chǔ),此步驟是實(shí)現(xiàn)集成方法的重要部分。而當(dāng)用戶提出新的需求時(shí),則需要人工對(duì)平臺(tái)進(jìn)行維護(hù)和改進(jìn),是一個(gè)漫長(zhǎng)而復(fù)雜的過(guò)程。當(dāng)前也存在一些支持用戶導(dǎo)入和管理數(shù)據(jù)庫(kù)的集成方法,但是,這些集成方法只能夠?qū)崿F(xiàn)初步的集成,在集成檢索中向用戶返回最基本的檢索字段,當(dāng)用戶對(duì)知識(shí)詳細(xì)內(nèi)容和結(jié)構(gòu)有進(jìn)一步需求時(shí),往往采取自動(dòng)獲取數(shù)據(jù)庫(kù)關(guān)聯(lián)表的方式向用戶返回一些可能相關(guān)的信息,而這些信息往往具有準(zhǔn)確度低、缺乏組織等特點(diǎn)。
在各類企事業(yè)單位中,由于開(kāi)發(fā)時(shí)間不同,往往存在許多異構(gòu)的運(yùn)行于不同軟硬件平臺(tái)上的信息管理系統(tǒng),由于采用不同的數(shù)據(jù)庫(kù)開(kāi)發(fā)技術(shù),造成這些系統(tǒng)的數(shù)據(jù)庫(kù)彼此獨(dú)立,各個(gè)數(shù)據(jù)庫(kù)系統(tǒng)之間無(wú)法融合與共享。隨著互聯(lián)網(wǎng)的不斷發(fā)展與普及,企事業(yè)單位間信息交流的需求日益迫切,這就需要把不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)庫(kù)融合集成起來(lái)。因此,如何消除來(lái)自于不同異構(gòu)數(shù)據(jù)庫(kù)的相似重復(fù)數(shù)據(jù)則是需要解決的技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,本發(fā)明提出了一種為企業(yè)異構(gòu)數(shù)據(jù)源系統(tǒng)消除重復(fù)記錄的方法。
本發(fā)明采用的技術(shù)方案如下:
一種為企業(yè)異構(gòu)數(shù)據(jù)源系統(tǒng)消除重復(fù)記錄的方法,包括:數(shù)據(jù)倉(cāng)庫(kù)、集成數(shù)據(jù)層和應(yīng)用接口;
底層的各個(gè)異構(gòu)數(shù)據(jù)源構(gòu)成了系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù);
集成數(shù)據(jù)層封裝了異構(gòu)數(shù)據(jù)庫(kù)集成系統(tǒng)的業(yè)務(wù)邏輯;
各種應(yīng)用程序和對(duì)應(yīng)的訪問(wèn)接口構(gòu)成了系統(tǒng)的應(yīng)用接口;
集成數(shù)據(jù)層是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)中數(shù)據(jù)轉(zhuǎn)換的核心,目的是訪問(wèn)各個(gè)數(shù)據(jù)源,集成數(shù)據(jù)源信息,協(xié)調(diào)各數(shù)據(jù)源間信息;集成數(shù)據(jù)層在各局部數(shù)據(jù)提供的共享數(shù)據(jù)的基礎(chǔ)之上建立一個(gè)全局的虛擬視圖,并不存儲(chǔ)實(shí)際的數(shù)據(jù);具體包括:元數(shù)據(jù)DB、元數(shù)據(jù)管理器、綜合包裝器、中介器、應(yīng)用層訪問(wèn)統(tǒng)一接口、異構(gòu)數(shù)據(jù)庫(kù)統(tǒng)一接口;
元數(shù)據(jù)DB用于儲(chǔ)存各異構(gòu)數(shù)據(jù)庫(kù)的元數(shù)據(jù)庫(kù)信息;
元數(shù)據(jù)管理器用于制定集成系統(tǒng)的全局模式與局部數(shù)據(jù)庫(kù)的模式之間的轉(zhuǎn)換規(guī)則;
中介器用于異構(gòu)數(shù)據(jù)庫(kù)的注冊(cè)、公共模型的生成和全局查詢請(qǐng)求的接收;
綜合包裝器用于實(shí)現(xiàn)數(shù)據(jù)位置和訪問(wèn)的透明,對(duì)異構(gòu)的數(shù)據(jù)進(jìn)行包裝;
集成數(shù)據(jù)層對(duì)外提供了兩個(gè)統(tǒng)一接口,即應(yīng)用層訪問(wèn)統(tǒng)一接口和底層異構(gòu)數(shù)據(jù)庫(kù)訪問(wèn)接口;其功能是屏蔽各數(shù)據(jù)庫(kù)的差異,提供數(shù)據(jù)的透明訪問(wèn),使得使用者無(wú)需知道數(shù)據(jù)的數(shù)據(jù)源模式及具體的物理位置等信息,只需通過(guò)系統(tǒng)定義的與具體數(shù)據(jù)源無(wú)關(guān)的SQL語(yǔ)句進(jìn)行訪問(wèn);
根據(jù)異構(gòu)數(shù)據(jù)源的特點(diǎn),對(duì)異構(gòu)數(shù)據(jù)源中重復(fù)記錄消除的步驟具體包括如下:
第一步:根據(jù)實(shí)際情況進(jìn)行需求分析,選擇元數(shù)據(jù)DB中儲(chǔ)存的各異構(gòu)數(shù)據(jù)庫(kù)的元數(shù)據(jù)庫(kù)信息;
第二步:根據(jù)所述元數(shù)據(jù)庫(kù)信息制定消除規(guī)則,以方便隨后采用自動(dòng)化消除和人工篩選相結(jié)合的方式對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行消除;
第三步:根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的共享數(shù)據(jù)要求,提取局部數(shù)據(jù)庫(kù)的模式,根據(jù)異構(gòu)數(shù)據(jù)源數(shù)據(jù)模式之間的關(guān)聯(lián)關(guān)系查找相似的元數(shù)據(jù)庫(kù)信息,并分別映射到異構(gòu)數(shù)據(jù)源中相應(yīng)的數(shù)據(jù),并將其存儲(chǔ)于臨時(shí)數(shù)據(jù)庫(kù)中;
第四步:根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)規(guī)范及數(shù)據(jù)格式要求,對(duì)臨時(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)記錄進(jìn)行轉(zhuǎn)換,使之符合數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn);
第六步:利用消除規(guī)則,采用自動(dòng)化消除清洗數(shù)據(jù)倉(cāng)庫(kù)中的相似重復(fù)記錄。
優(yōu)選地,中介器由三個(gè)組件構(gòu)成,包括:異構(gòu)數(shù)據(jù)注冊(cè)模塊、查詢規(guī)劃模塊和結(jié)果合并過(guò)濾模塊;異構(gòu)數(shù)據(jù)注冊(cè)模塊的主要功能是:在共享數(shù)據(jù)注冊(cè)階段,負(fù)責(zé)公共模型的建立以及異構(gòu)數(shù)據(jù)庫(kù)的共享注冊(cè);查詢規(guī)劃模塊的主要功能是:在數(shù)據(jù)集成階段,將客戶端提交的基于全局?jǐn)?shù)據(jù)庫(kù)的標(biāo)準(zhǔn)查詢分解成針對(duì)各個(gè)異構(gòu)數(shù)據(jù)庫(kù)的子查詢,并提交到相應(yīng)的包裝器;結(jié)果合并過(guò)濾模塊的主要功能是:將各異構(gòu)數(shù)據(jù)庫(kù)查詢返回的XML文檔進(jìn)行合并,形成完整統(tǒng)一的查詢結(jié)果,反饋至客戶端瀏覽器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于航天星圖科技(北京)有限公司,未經(jīng)航天星圖科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611208774.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種分布式數(shù)據(jù)庫(kù)的聯(lián)合訪問(wèn)方法
- 下一篇:一種同步異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)時(shí)數(shù)據(jù)的方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 根據(jù)企業(yè)規(guī)劃模型進(jìn)行水平企業(yè)規(guī)劃
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)評(píng)價(jià)裝置和企業(yè)評(píng)價(jià)程序
- 企業(yè)與企業(yè)之間信息交流平臺(tái)
- 基于企業(yè)畫像的企業(yè)精準(zhǔn)分析方法
- 標(biāo)貼(企業(yè))
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問(wèn)多數(shù)據(jù)源的方法及系統(tǒng)





