[發明專利]一種互聯網大數據清洗方法有效
| 申請號: | 201910767145.7 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110737647B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 劉磊;張洪 | 申請(專利權)人: | 廣州宏數科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/27;G06F16/951;G06F16/9536;G06F21/62;G06F18/241 |
| 代理公司: | 廣州市紅荔專利代理有限公司 44214 | 代理人: | 李彥孚 |
| 地址: | 510640 廣東省廣州市番禺區沙*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 清洗 方法 | ||
本發明涉及數據清洗技術領域,涉及一種互聯網大數據清洗方法,具體步驟如下:S1、利用數據采集模塊提取出所需數據;S2、利用爬蟲同步模塊把oss中的文件同步下來;S3、利用數據清洗模塊將處理后的數據打包插入KAFKA模塊的kafaka隊列中;S4、利用KAFKA模塊,運用選舉算法將數據合理分配到服務器隊列中,通過網絡傳輸數據庫模塊中;S5、利用數據庫模塊監測KAFKA模塊傳輸過來的數據,并利用filer?chainshain擴展監控統計。本發明通過數據清洗模塊有效地將數據重新分類整合清洗至各個規范化數據庫模塊中,提高了數據清洗的準確度,解決了現有技術大數據因數據丟失而造成篩選清洗效率低下的缺陷,達到快速準確篩選清洗數據的目的。
技術領域
本發明涉及數據清洗技術領域,更具體地說,涉及一種互聯網大數據清洗方法。
背景技術
在信息大數據時代,數據的收集與處理已成為當前信息企業急需解決的問題。目前,我們通過采集系統采集到的原生數據,我們也稱為不規整數據,即目前來說,該數據混雜大量無用、錯亂、無序、重復的數據,并且該數據的格式還無法滿足我們對數據處理的基本要求,十分不利于后期的修改,數據準確性低下。針對上述情況需要對其進行預處理,轉化為我們后面工作所需要的較為規整的數據,所以這里的數據清洗,其實指的就是對數據進行基本的預處理,以方便我們后面的統計分析,需要根據不同的業務需求來進行取舍,在我們的場景中需要對數據進行遷移、壓縮、清洗、打散、分片、分塊以及其他多種轉換處理。現有的數據清洗一般只是通過大數據分析算法將大數據篩選得到目標數據,這種方式運用于數據采集前,分析篩選過程簡單易操作,但是,這種方式在分析過程,由于只是針對前期篩選后再將大數據采集,從而容易造成目標數據的丟失,減少目標數據的篩選量,使得最終得到的目標數據遠遠少于數據數量,并且還可能會造成相關或相鄰的目標數據丟失,給用戶下一步數據的采集造成操作困難,從而導致該方式的數據清洗效率低下。
發明內容
有鑒于此,本發明提供了一種互聯網大數據清洗方法,以解決現有技術大數據因數據丟失而造成篩選清洗效率低下的缺陷。
一種互聯網大數據清洗方法,包括以下步驟:
S1、利用數據采集模塊,通過http協議登錄目標服務器,使用正則表達式,xpath表達式以及jsonpath表達式提取出所需數據;
S2、利用爬蟲同步模塊,通過checksum算法、傳輸同步算法以及比對算法把oss中的文件同步下來;
S3、利用數據清洗模塊,通過均值填補法、熱卡填補法以及回歸填補法對數據進行處理,將處理后的數據打包插入KAFKA模塊的kafaka隊列中;
S4、利用KAFKA模塊,運用選舉算法將數據合理分配到服務器隊列中,通過網絡傳輸數據庫模塊中;
S5、利用數據庫模塊,通過wallFilter監測KAFKA模塊傳輸過來的數據有沒有sql注入攻擊、過濾以及保存,并利用filer-chainshain擴展監控統計。
作為本發明的優選方案,該步驟S3包括以下步驟:
S31、通過分布式數據采集器,并根據具體任務配置,主動從數據庫或文件獲取元數據。或者由API被動接收元數據;
S32、通過分布式數據采集器,并根據具體任務配置,將簽名秘鑰,獲取到的元數據,以及包含元數據與目標數據字段對應關系、類型對應關系等信息的任務配置,封裝成一個分布式數據處理器程序可識別的任務對象,通過分布式數據處理器的分布式任務調度系統,分發給具體的機器及工作進程去執行清洗工作;
S33、通過分布式數據處理器,接收任務,對任務對象進行解析,首先驗證簽名秘鑰是否合法,如果不合法則拋棄任務并記錄日志,如果合法則進入下一步驟S34;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州宏數科技有限公司,未經廣州宏數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910767145.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





