[發明專利]一種支持斷點續傳的數據抽取方法及系統有效
| 申請號: | 201811076270.5 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109271435B | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 陳曉偉;劉春憶 | 申請(專利權)人: | 南威軟件股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;H04L67/101;H04L67/1074 |
| 代理公司: | 北京天盾知識產權代理有限公司 11421 | 代理人: | 張彩珍 |
| 地址: | 362000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 斷點續傳 數據 抽取 方法 系統 | ||
本發明屬于互聯網信息處理技術領域,公開了一種支持斷點續傳的數據抽取方法及系統,數據抽取系統包括配置數據庫模塊、設置模塊、抽取數據模塊、記錄和保存模塊;數據抽取方法首先根據抽取的數據來源信息配置抽取數據庫,選擇增量字段;然后設置開始時間、間隔時間、每次抽取最大記錄數、每次調度分頁抽取記錄數,抽取數據;隨后記錄并保存流程調度次數、流程總抽取記錄數、流程上次抽取記錄數、當前調度抽取完成記錄數、已完成分頁數、總分頁數,服務器故障后再次抽取從之前已完成的下一頁開始抽取。本發明的數據抽取方法可避免服務器負載過大,確保服務器的穩定性,不會重復抽取已完成的數據,提高了數據抽取的效率。
技術領域
本發明屬于互聯網信息處理技術領域,涉及一種支持斷點續傳的數據抽取方法及系統。
背景技術
目前,業內常用的現有技術是這樣的:
近年來,隨著互聯網的不斷發展,人類生產生活方式的日新月異,積累了大量的業務數據。需要對大量數據進行分析、挖掘提取成有用的知識形成報表、圖表,從而誕生了BI。而ETL(Extract-Transform-Load)則是BI項目形成數據倉庫最重要的一個環節。
常用的ETL工具諸如Datastage、Powercenter、Automatic、Kettle、NIFI等都有自己的工具或者處理器進行數據抽取轉換加載。而數據抽取過程中,需要保證大數據量下數據的完整性、準確性、一致性的同時,支持服務器故障等災難發生數據只需繼續抽取,而不是重新抽取,并且需要保證數據抽取的效率。
綜上所述,現有技術存在的問題是:
服務器故障后,數據需要重新抽取,使得抽取效率低,浪費時間。
現有技術中,沒有根據分析數據設置批次導入數據的起始值、間隔值、每次調度最多抽取記錄數、查詢數據庫分頁數等信息,導致不能實現數據的分批次分頁抽取、抽取效率低;
不能在某次調度出現服務器故障、系統內存溢出、集群節點異常等不可預見問題時待服務器重新恢復正常時進行斷點續傳。
解決上述技術問題的難度和意義:
上述問題需要一個較完整的解決方案,對源數據進行分析以及較完整的監控日志記錄,方面流程跟蹤以及歷史數據統計分析。
難度在于分析源數據的維度定義,抽取規則定義以及流程調度信息的監控日志記錄管理;在于要有較高的抽取和裝載性能,對業務系統的影響不能太大,傾入性不能太強;在于服務器發生故障后下次恢復啟動需要對未抽取完成的數據進行斷點續傳。
發明內容
針對現有技術存在的問題,本發明提供了一種支持斷點續傳的數據抽取方法及系統,支持在服務器故障、系統內存溢出、集群節點異常等不可預見問題時保留原來抽取進度,實現斷點續傳。
本發明旨在基于開源ETL工具-NIFI進行二次開發,原生處理器支持配置數據源信息,配置物理表信息,配置增量抽取字段,并將截止當前時間該字段的數據最大值保存到處理器狀態中。
本發明提供設置每次抽取最大記錄數、每次調度分頁抽取記錄數、開始時間、間隔時間,并記錄整個流程抽取總共抽取記錄數、上次執行抽取記錄數、調度次數,當前調度抽取完成記錄數、已完成分頁數、總分頁數等信息,以供實現斷點續傳功能。
本發明是這樣實現的,一種支持斷點續傳的數據抽取方法為:
限定數據分批次抽取范圍、每次調度抽取最多記錄數;范圍內記錄數大于設置的最大值,對間隔時間進行等分取前者,以此類推直到滿足抽取的范圍數據數量小于或者等于設置的最大記錄數;
記錄每次分頁抽取的抽取時間截止點、已完成分頁數、總分頁數狀態信息;當出現服務器故障、系統內存溢出、集群節點異常不可預見問題時,保留原來抽取進度,下次調度時繼續抽取未完成的分頁數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南威軟件股份有限公司,未經南威軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811076270.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





