[發明專利]一種基于中間表的數據抽取的系統和方法在審
| 申請號: | 202111000509.2 | 申請日: | 2021-08-29 |
| 公開(公告)號: | CN113688157A | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 王佩 | 申請(專利權)人: | 中盾創新檔案管理(北京)有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/2457;G06F16/215;G06F16/27;G06F16/28 |
| 代理公司: | 北京嘉途睿知識產權代理事務所(普通合伙) 11793 | 代理人: | 彭成 |
| 地址: | 102101 北京市延*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中間 數據 抽取 系統 方法 | ||
本發明公開了一種基于中間表的數據抽取的系統和方法,該系統通過預先建立中間表,在需要執行數據抽取時,用戶從客戶端通過修改中間表,將該中間件的配置參數發送至管理服務器,理服務器通過配置參數對中間表進行配置生成批處理執行腳本,并通過運行對應的執行腳本,根據個性化設置后的執行腳本,從分布式系統抽取所需要的數據,有效提高了數據抽取效率。
技術領域:
本發明屬于數據抽取的系統和方法,尤其涉及一種基于中間表的數據抽取的系統和方法。
背景技術:
數據倉庫中的數據根據需求可分為日粒度數據、月粒度數據、年粒度數據,這些數據的基礎來源都是詳細數據,需要每天通過對核心業務系統獲取增量數據后加載到數據倉庫中。如果不通過增量數據加載就需要每天加載全量數據,在數據量越來越大的情況下,每天都加載全量數據的做法是不可取的。
目前,大型的數據倉庫技術中的數據加載都是每天對增量數據進行加載。做好增量數據加載才能保證整個數據的完整性。每天一次增量數據,這些增量數據的合集就是全量。
做好增量數據抽取才能保證系統數據抽取的及時性和高效率性。如果不能保證增量的準確性和效率,那么系統的數據就不完整,而最終導致呈現給分析人員和決策人員的數據是不可靠的,錯誤的數據造成對市場的分析決策錯誤,給企業帶來的損失不可估量。如何改進分布式系統從生產系統抽取數據的過程,提高數據抽取準確性和效率是本領域當前需要解決的技術問題之一。
發明內容
針對目前現有的數據抽取效率慢,不穩定,本發明提供通過預先建立中間表,在需要執行數據抽取時,用戶從客戶端通過修改中間表,將該中間件的配置參數發送至管理服務器,理服務器通過配置參數對中間表進行配置生成批處理執行腳本,并通過運行對應的執行腳本,根據個性化設置后的執行腳本,從分布式系統抽取所需要的數據。
將數據抽取轉化為中間表抽取的方式,針對生產系統中新增數據表,無需重新開發特定數據抽取腳本,通過對中間表進行修改即可實現,提升了分布式存儲系統對數據的抽取效率,減少了分布式存儲系統的數據維護壓力,同時,周期性通過觸發器和時間戳的方式獲取待選增量數據集,為后續數據抽取減少壓力,為分析人員提供了可靠支持。
本發明為解決以上技術問題所采取的技術方案是:
基于中間表的數據抽取的系統,該系統包括通過網絡連接的客戶端,管理服務器,分布式數據庫;
所述客戶端用于獲取用戶對中間表設置界面的數據抽取條件后向管理服務器發送數據抽取命令;
所述管理服務器根據抽取指令以及中間表配置參數生成批處理任務執行腳本,根據批處理任務執行腳本從分布式數據庫中獲取數據后,將所述獲取數據按照預設規則排序后存儲至客戶端并顯示。
進一步地,在中間表設置界面設置數據抽取條件以及關聯的數據庫。
進一步地,所述數據抽取條件包括選擇所需參數以及設置所述參數的權重值;所述設置參數包括:數據生成時間,數據訪問熱度,數據下載熱度,數據庫名,排序方式。
進一步地,分布式數據庫中的數據表中設置有觸發器,根據所述觸發器獲得數據增量日志匯總到日志表中,所述管理服務器會給每一條日志加時間戳;所述管理服務器周期性地會通過時間戳獲取分布式數據庫的多個增量數據數據集合;所述管理服務器在接受到數據抽取指令后,根據所述批處理任務執行腳本從所述多個增量數據數據集合抽取所需數據。
進一步地,所述預設規則排序具體為:根據數據質量分數、數據修改時間和數據大小進行排序,所述數據質量分數計算公式為:S=w1·P+w2·Q,其中w1+w2=1,P為下載熱度,Q為訪問熱度,w1和w2為權重。
進一步地,所述根據數據質量分數、數據修改時間和數據大小進行排序具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中盾創新檔案管理(北京)有限公司,未經中盾創新檔案管理(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111000509.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





