[發明專利]一種互聯網采集數據的過程化處理方法在審
| 申請號: | 201611044723.7 | 申請日: | 2016-11-24 |
| 公開(公告)號: | CN106776786A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 王顏;王洪添 | 申請(專利權)人: | 山東浪潮云服務信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司37100 | 代理人: | 孟峣 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 采集 數據 過程 處理 方法 | ||
技術領域
本發明涉及計算機應用技術領域,具體地說是一種互聯網采集數據的過程化處理方法。
背景技術
互聯網網頁數據是大數據領域的一個重要組成部分,是互聯網等公司獲取用戶消費、交易、產品評價信息以及其他社交信息等數據的重要途徑,為數據服務提供了豐富的數據基礎,因此,對互聯網網頁數據處理流程和技術進行探索具有重要意義。
目前對采集數據的處理主要是進行抽取、轉換、加載,即ETL。ETL工具將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。但是數據采集過程中經常會遇到數據源單一、定期采集、數據質量問題規律性不強的問題,數據采集過程容易出現異常,在處理異常時其處理效率不高,基于此,現提供一種互聯網采集數據的過程化處理方法,對于數據源單一且數據質量問題規律性不強的采集數據,采用基于SQL的過程化數據處理方法,配合規范化的處理流程,實現數據的清洗、處理及數據處理過程的監控。
發明內容
本發明的技術任務是針對以上不足之處,提供一種互聯網采集數據的過程化處理方法。
一種互聯網采集數據的過程化處理方法,其實現過程為:根據采集數據的數據質量問題及數據需求,完成采集數據的清洗及處理,并監控整個數據處理過程,該數據處理過程包括包括開始執行、執行結束、處理過程實際執行的SQL語句、完成處理的數據量、執行異常信息,將監控信息保存到相應的數據表,形成完善的數據處理機制。
采集數據進行清洗、處理的具體步驟為:
一、首先整理采集數據表;
二、然后分析采集數據表的數據規范性,編寫數據清洗SQL,完成包括去除重復數據、規范數據顯示格式的數據清洗工作,清洗后的數據分別保存到臨時表中;
三、編寫數據處理SQL,該數據處理SQL根據臨時表之間的關聯得到綜合信息、匯總信息、分指標匯總信息,處理后的數據保存到目標表中;
四、設計存放數據清洗、處理SQL的表;
五、數據清洗、處理過程中的SQL均通過動態SQL執行,將動態SQL保存到步驟四設計的表中,相對應的,該表中包含:執行SQL的存儲過程名稱、SQL執行時間、實際執行的SQL語句,方便查看實際執行的數據清洗、處理腳本。
在監控整個數據處理過程時,首先需要獲取數據處理過程中產生的具體數據信息:
首先記錄存儲過程開始執行時間;
進行采集數據清洗及處理的步驟,保留處理過程中的中間表或臨時表,并將最終處理結果保存至目標表,記錄各級數據處理過程的實際執行SQL;
記錄本次清洗完成后保存到目標表的采集數據量;
記錄存儲過程結束執行時間;
當處理過程出現異常時,記錄存儲過程執行異常信息。
監控數據處理過程中產生的數據保存在以下對應的日志表中:
記錄存儲過程的執行日志表;
記錄實際執行的SQL腳本的SQL日志表;
記錄數據處理完成后的數據量的變化日志表;
記錄數據處理過程中的異常信息的異常信息表。
上述執行日志表通過具有記錄存儲過程執行情況的函數記錄,該函數通過輸入參數,將輸入參數相關信息保存到執行日志表中,這里的輸入參數包括:過程名稱、執行標志、執行時間、存儲過程生成的目標數據量,這里的執行標志是指開始或結束兩種標志。
所述變化日志表通過記錄數據處理完成后的數據量的函數實現,該函數通過輸入參數,將輸入參數相關信息保存至該變化日志表中,其輸入參數包括:存儲過程名稱、目標表名稱、目標表本次新增記錄數、新增記錄時間。
所述異常信息表通過記錄存儲過程執行異常情況的函數實現,該函數通過輸入參數,將將輸入參數相關信息保存到異常信息表中,其輸入參數包括:存儲過程名稱、執行異常時間、執行異常代碼、執行異常信息。
本發明的一種互聯網采集數據的過程化處理方法和現有技術相比,具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮云服務信息科技有限公司,未經山東浪潮云服務信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611044723.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





