[發明專利]數據處理方法及裝置在審
| 申請號: | 201711395391.1 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN108062399A | 公開(公告)日: | 2018-05-22 |
| 發明(設計)人: | 陳玉強;黃哲 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 逯恒 |
| 地址: | 450000 河南省鄭州市鄭州高新*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
本發明實施例涉及大數據技術領域,提供一種數據處理方法及裝置,首先,建立源數據庫對應的第一指紋集和目標數據庫對應的第二指紋集,該第一指紋集包括源數據庫中每條源數據的源數據指紋,該第二指紋集包括目標數據庫中每條目標數據的目標數據指紋,同時,源數據指紋包括源數據哈希值,目標數據指紋包括目標數據哈希值;然后,獲取待更新的數據對應的更新指紋集,該更新指紋集包括第一指紋集中與目標數據指紋不同的源數據指紋、以及第二指紋集中與源數據指紋不同的目標數據指紋。與現有技術相比,本發明實施例可以在不改動源數據庫的情況下,實現大數據場景下的數據增量抽取。
技術領域
本發明涉及大數據技術領域,具體而言,涉及一種數據處理方法及裝置。
背景技術
大數據項目中,通常第一步要進行的事情是數據集成,即將待處理數據待處理數據從數據源抽取到數據中心中,才能利用大規模的服務器集群完成海量數據的處理。數據源是各種業務系統的數據庫,由于業務系統是連續運行的,因此數據源中的數據也是持續增加、更新和刪除的。數據抽取工作中為了提高海量數據的抽取和存儲效率,應當每次只抽取變化的數據,故數據集成任務需要判斷出增加、更新、刪除的數據,并將增加的數據抽取到數據中心中或者對應的進行更新和刪除。目前常用的方法是在源數據中設立更新時間戳字段、或者通過數據源系統日志等機制記錄源數據的變化,這兩種方式均需要對數據源進行改動,在實際項目中較難實現。
發明內容
本發明實施例的目的在于提供一種數據處理方法及裝置,用以在不改動源數據庫的情況下,實現大數據場景下的數據增量抽取。
為了實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供了一種數據處理方法,所述方法包括:建立源數據庫對應的第一指紋集和目標數據庫對應的第二指紋集,其中,所述第一指紋集包括源數據庫中每條源數據的源數據指紋,所述第二指紋集包括目標數據庫中每條目標數據的目標數據指紋,所述源數據指紋包括源數據哈希值,所述目標數據指紋包括目標數據哈希值;獲取待更新的數據對應的更新指紋集,其中,所述更新指紋集包括:第一指紋集中與目標數據指紋不同的源數據指紋,以及第二指紋集中與源數據指紋不同的目標數據指紋。
第二方面,本發明實施例還提供了一種數據處理裝置,所述裝置包括指紋集建立模塊和更新指紋集獲取模塊。其中,指紋集建立模塊用于建立源數據庫對應的第一指紋集和目標數據庫對應的第二指紋集,其中,所述第一指紋集包括源數據庫中每條源數據的源數據指紋,所述第二指紋集包括目標數據庫中每條目標數據的目標數據指紋,所述源數據指紋包括源數據哈希值,所述目標數據指紋包括目標數據哈希值;更新指紋集獲取模塊用于獲取待更新的數據對應的更新指紋集,其中,所述更新指紋集包括:第一指紋集中與目標數據指紋不同的源數據指紋,以及第二指紋集中與源數據指紋不同的目標數據指紋。
相對現有技術,本發明實施例提供的一種數據處理方法及裝置,首先,建立源數據庫對應的第一指紋集和目標數據庫對應的第二指紋集,該第一指紋集包括源數據庫中每條源數據的源數據指紋,該第二指紋集包括目標數據庫中每條目標數據的目標數據指紋,同時,源數據指紋包括源數據哈希值,目標數據指紋包括目標數據哈希值;然后,獲取待更新的數據對應的更新指紋集,該更新指紋集包括第一指紋集中與目標數據指紋不同的源數據指紋、以及第二指紋集中與源數據指紋不同的目標數據指紋。與現有技術相比,本發明實施例可以在不改動源數據庫的情況下,實現大數據場景下的數據增量抽取。
為使本發明的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發明的某些實施例,因此不應被看作是對范圍的限定,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711395391.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大容量存儲器電路的3D封裝結構
- 下一篇:一種嵌縫材料及其制備方法





