[發(fā)明專利]數(shù)據(jù)導(dǎo)入處理方法及數(shù)據(jù)處理裝置有效
| 申請?zhí)枺?/td> | 201310221739.0 | 申請日: | 2013-06-05 |
| 公開(公告)號: | CN103279542B | 公開(公告)日: | 2018-05-22 |
| 發(fā)明(設(shè)計)人: | 孫秋峰;傅永財;李淑惠;寧江;鄭揚飛;徐超;郭紅鈺;何巖;王非;劉玉龍 | 申請(專利權(quán))人: | 中國電子科技集團公司第十五研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 黃啟行;方曉明 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 導(dǎo)入 處理 方法 數(shù)據(jù)處理 裝置 | ||
本發(fā)明公開了一種數(shù)據(jù)導(dǎo)入處理方法及數(shù)據(jù)處理裝置。該方法包括:獲取待導(dǎo)入的源數(shù)據(jù)、源數(shù)據(jù)模型與目標(biāo)數(shù)據(jù)模型;建立源數(shù)據(jù)模型與目標(biāo)數(shù)據(jù)模型的映射關(guān)系,將獲取的源數(shù)據(jù)按照建立的映射關(guān)系進行轉(zhuǎn)換;獲取預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)模型業(yè)務(wù)規(guī)則,對轉(zhuǎn)換后的源數(shù)據(jù)進行過濾處理;計算過濾處理后源數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的全局相似度,刪除全局相似度值大于預(yù)先設(shè)置的相似度閾值的源數(shù)據(jù),并將經(jīng)相似度處理的符合相似度條件的源數(shù)據(jù)導(dǎo)入至目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)表中。應(yīng)用本發(fā)明,可以提升存儲的數(shù)據(jù)的一致性、提高存儲效率,減少數(shù)據(jù)冗余。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種數(shù)據(jù)導(dǎo)入處理方法及數(shù)據(jù)處理裝置。
背景技術(shù)
隨著因特網(wǎng)/內(nèi)部網(wǎng)(Internet/Intranet)的快速發(fā)展以及數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,各行業(yè)應(yīng)用生成的數(shù)據(jù)量也越來越多。其中,通過數(shù)據(jù)庫技術(shù),存儲生成的海量數(shù)據(jù),可以對數(shù)據(jù)進行備份,并便于后續(xù)對存儲的數(shù)據(jù)進行數(shù)據(jù)分析和維護;而通過Internet/Intranet,可以實現(xiàn)各行業(yè)應(yīng)用數(shù)據(jù)的資源共享。現(xiàn)有技術(shù)中,數(shù)據(jù)庫可以采用不同的數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),因而,各數(shù)據(jù)庫之間,存儲的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)不相同,稱為異構(gòu)數(shù)據(jù),如何使各數(shù)據(jù)庫之間的異構(gòu)數(shù)據(jù)經(jīng)過數(shù)據(jù)處理,能夠?qū)崿F(xiàn)相互轉(zhuǎn)換,從而提高資源共享或再利用的效率,已成為目前急需解決的技術(shù)問題。
為實現(xiàn)不同數(shù)據(jù)庫中異構(gòu)數(shù)據(jù)的共享或再利用,數(shù)據(jù)導(dǎo)入技術(shù)被廣泛應(yīng)用,逐漸成為一種關(guān)鍵的數(shù)據(jù)處理技術(shù),下面進行簡要描述。
進行數(shù)據(jù)導(dǎo)入時,涉及到兩個對象,即源數(shù)據(jù)與目標(biāo)數(shù)據(jù),其中,源數(shù)據(jù)以數(shù)據(jù)表的形式存儲在源數(shù)據(jù)庫中,不同的源數(shù)據(jù)庫中的數(shù)據(jù)表,具有不同的數(shù)據(jù)表屬性,存儲有不同數(shù)據(jù)表屬性的源數(shù)據(jù),數(shù)據(jù)表屬性可以是各種類型的文件;目標(biāo)數(shù)據(jù)存儲在目標(biāo)數(shù)據(jù)庫中,目標(biāo)數(shù)據(jù)庫用于接收各種類型的源數(shù)據(jù),進行相應(yīng)處理后存儲至數(shù)據(jù)表中,數(shù)據(jù)表屬性具有特定的數(shù)據(jù)類型、業(yè)務(wù)規(guī)則以及數(shù)據(jù)模型。在數(shù)據(jù)導(dǎo)入中,一般要求目標(biāo)數(shù)據(jù)庫中需要包含與源數(shù)據(jù)模型相同的數(shù)據(jù)表,這樣,在通過復(fù)制方式導(dǎo)入源數(shù)據(jù)后,目標(biāo)數(shù)據(jù)庫就可以將接收的源數(shù)據(jù)存放在與源數(shù)據(jù)模型相同的數(shù)據(jù)表中,即可完成數(shù)據(jù)的導(dǎo)入。
但實際應(yīng)用中,由于可以從多個源數(shù)據(jù)庫中進行數(shù)據(jù)的導(dǎo)入,使得導(dǎo)入目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)會出現(xiàn)重復(fù)數(shù)據(jù)、垃圾數(shù)據(jù)、空值、錯誤數(shù)據(jù)等,甚至由于源數(shù)據(jù)表屬性與目標(biāo)數(shù)據(jù)庫中數(shù)據(jù)表屬性不兼容,從而導(dǎo)致源數(shù)據(jù)導(dǎo)入失敗等多種技術(shù)問題。
由上述可見,現(xiàn)有基于數(shù)據(jù)導(dǎo)入的數(shù)據(jù)處理方法,在源數(shù)據(jù)表屬性與目標(biāo)數(shù)據(jù)庫中數(shù)據(jù)表屬性兼容的情況下,將包含源數(shù)據(jù)的源數(shù)據(jù)表通過復(fù)制,復(fù)制到目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)表中;而在源數(shù)據(jù)表屬性與目標(biāo)數(shù)據(jù)庫中數(shù)據(jù)表屬性不兼容的情況下,將包含源數(shù)據(jù)的源數(shù)據(jù)表作為新數(shù)據(jù)表,插入到目標(biāo)數(shù)據(jù)庫中,這樣,沒有考慮對源數(shù)據(jù)進行數(shù)據(jù)處理,使得目標(biāo)數(shù)據(jù)庫中導(dǎo)入的數(shù)據(jù)產(chǎn)生冗余,以及,將不符合目標(biāo)數(shù)據(jù)庫中數(shù)據(jù)表屬性要求的垃圾數(shù)據(jù)以及重復(fù)數(shù)據(jù)導(dǎo)入到目標(biāo)數(shù)據(jù)庫中,導(dǎo)致目標(biāo)數(shù)據(jù)庫中存儲的數(shù)據(jù)的一致性較差,存儲效率較低;進一步地,目標(biāo)數(shù)據(jù)中包含有不同數(shù)據(jù)表屬性的數(shù)據(jù),影響目標(biāo)數(shù)據(jù)庫的性能,甚至導(dǎo)致目標(biāo)數(shù)據(jù)庫不能正常運行。
發(fā)明內(nèi)容
本發(fā)明的實施例提供一種數(shù)據(jù)導(dǎo)入處理方法,提升存儲的數(shù)據(jù)的一致性、提高存儲效率。
本發(fā)明的實施例還提供一種數(shù)據(jù)處理裝置,提升存儲的數(shù)據(jù)的一致性、提高存儲效率。
為達到上述目的,本發(fā)明實施例提供的一種數(shù)據(jù)導(dǎo)入處理方法,包括:
獲取待導(dǎo)入的源數(shù)據(jù)、源數(shù)據(jù)模型與目標(biāo)數(shù)據(jù)模型;
建立源數(shù)據(jù)模型與目標(biāo)數(shù)據(jù)模型的映射關(guān)系,將獲取的源數(shù)據(jù)按照建立的映射關(guān)系進行轉(zhuǎn)換;
獲取預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)模型業(yè)務(wù)規(guī)則,對轉(zhuǎn)換后的源數(shù)據(jù)進行過濾處理;
計算過濾處理后源數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的全局相似度,刪除全局相似度值大于預(yù)先設(shè)置的相似度閾值的源數(shù)據(jù),并將經(jīng)相似度處理符合相似度條件的源數(shù)據(jù)導(dǎo)入至目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)表中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團公司第十五研究所,未經(jīng)中國電子科技集團公司第十五研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310221739.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





