[發明專利]一種基于spark同步更新數據的方法有效
| 申請號: | 201811159912.8 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109189798B | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 周韶寧;金建華 | 申請(專利權)人: | 浙江百世技術有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/2455 |
| 代理公司: | 浙江杭知橋律師事務所 33256 | 代理人: | 王梨華;陳麗霞 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 同步 更新 數據 方法 | ||
本發明涉及數據更新技術領域,公開了一種基于spark同步更新數據的方法,包括:(1)導入數據;(2)分區命名;(3)對更新數據進行獲取;(4)更新數據與原先數據進行替換:根據更新數據中表的數據的主鍵ID對目標數據的主鍵ID進行比對,將數據的主鍵ID相同的進行替換,形成新的目標數據,把更新數據的數據的主鍵ID緩存到更新集合里,設置的分割值判斷數據大小進行分類處理。本發明通過大文件拆分成多個小文件,整理的時候能知道更新的數據在某一個小文件里,則整理只需要讀取遍歷小文件,提升了讀取更新的速度。整個整理的過程結合兩種方式,采用spark軟件實現,起到了一個速度快,分布式計算的效果。
技術領域
本發明涉及數據更新技術領域,尤其涉及了一種基于spark同步更新數據的方法。
背景技術
目前隨著互聯網的普及,人們越來越多的使用電子產品,互聯網企業及相關企業本身存的數據量也越來越多,每天幾千萬的業務數據中大型公司,這么多數據如果能進行統計分析,分析業務增長趨勢,以及用戶行為之類的,對公司業務增長幫助比較大。
但目前數據庫如oracle,mysql進行多表,且表數據很大,oracle sql分析存在性能瓶頸,很慢且直接影響了系統的穩定性,所以需要借助大數據相關技術,進行數據分析工作。
大數據分析涉及到兩個部分,1:數據的存儲2:數據的分析。數據分析依賴數據存儲,目前大數據領域hdfs文件體系里的hdfs是常用的存儲,數據分析借助spark較多.
所以如果大數據要進行大數據相關的分析,這里就需要把數據庫里的數據從數據庫同步到hdfs上,且hdfs上的數據需要和數據庫里的數據保持一致。
因為hdfs是分布式文件系統,數據以文件的形式存在,文件里是每行數據,文件不像數據庫那要可以執行更新操作,文件只能增加,這樣如果數據庫里的數據進行了更新操作,用java jdbc操作拉出來的數據因為文件是一直增加的,就會導致更新數據的重復,因為多個文件里都有這條記錄,這樣就不能和數據庫保持一致了。
如果要保持一致,做法就是先讀取老的文件,然后從文件一行行遍歷,然后跟從數據庫拉取的數據進行對比,如果發現文件里存在了,就去掉,然后文件里沒有去掉的那部分重新寫到新文件里,然后新文件和數據庫的數據合并成大文件,然后替換掉之前的老文件,這樣達到了文件數據更新的效果,我們稱這個過程叫整理。
所以用傳統方案實現將非常繁瑣,而且數據數據庫更新了最近比較長的數據,幾個月,按每個幾千萬這個過程,單機跑需要很長時間,如果多機器跑需要自己實現分布式邏輯,相當復雜和繁瑣,容易出錯。
發明內容
本發明針對現有技術中過程復雜、容易出錯的缺點,提供了一種基于spark同步更新數據的方法。
為了解決上述技術問題,本發明通過下述技術方案得以解決。
一種基于spark同步更新數據的方法,包括如下步驟:
(1)導入數據:使用spark平臺從數據庫獲取目標列表存入hdfs文件;
(2)分區命名:通過spark分區方法對hdfs文件內的數據進行分區,根據創建日期,拉取需要的一個創建時間區間段的目標數據,并將該區間段數據按照目標數據的創建日期分別進行創建和命名文件夾,存入hdfs文件上的原始數據目錄里;
(3)對更新數據進行獲取:從數據庫拉取更新數據列表,對更新數據進行讀取并根據更新日期字段進行拉取,將更新數據用創建時間進行分區,存到hdfs文件的臨時更新數據文件中,同時也將更新數據根據數據的創建日期進行創建更新文件夾;
(4)更新數據與原先數據進行替換:根據更新數據中表的數據的主鍵ID對目標數據的主鍵ID進行比對,將數據的主鍵ID相同的進行替換,形成新的目標數據,把更新數據的數據的主鍵ID緩存到更新集合里,設置的分割值判斷數據大小進行分類處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江百世技術有限公司,未經浙江百世技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811159912.8/2.html,轉載請聲明來源鉆瓜專利網。





