[發明專利]一種對互聯網數據采集結果校驗的方法在審
| 申請號: | 202010324527.5 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111506566A | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 戴晶;蔣圣;謝乾;王吉;楊洋;沈愉悅;徐潤之;沈赟芳;汪濤 | 申請(專利權)人: | 江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06K9/62 |
| 代理公司: | 宜興知初知識產權代理事務所(普通合伙) 32418 | 代理人: | 高春濤 |
| 地址: | 214200 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 采集 結果 校驗 方法 | ||
本發明公開一種對互聯網數據采集結果校驗的方法,將數據分為常量、有規則變量和無規則變量三種類型,依次對常量使用靜態常量校驗方法,對有規則變量進行規則校驗,對無規則變量進行基于樸素貝葉斯算法的臟數據識別,結合這三種方法,能夠對數據采集的結果進行全方面的校驗,最終通過校驗的數據保存入庫,能夠有效地發現錯誤的數據,并且具有較高的識別率,為數據分析提供準確有效的數據,能夠實際應用于數據采集的校驗流程中。
技術領域
本發明屬于計算機技術領域,具體涉及一種對互聯網數據采集結果校驗的方法。
背景技術
隨著互聯網技術的發展,大數據分析和挖掘技術得到了迅速的發展,大數據的應用與我們日常生活息息相關,基于大數據的醫療健康分析能夠幫助病人快速定位病因,大數據的金融分析技術可以幫助交易員進行量化金融分析,大數據城市應用可以幫助決策者觀察人每日的人員流動方向,從而輔助進行區域經濟分析。大數據分析和挖掘技術過程主要分為數據采集,數據清洗,以及數據建模分析,其中數據采集對于大數據分析和挖掘至關重要。
互聯網數據是數據采集的一個重要數據源,但由于互聯網數據的數據源不穩定,數據源結構變動頻繁,在互聯網數據采集過程中,也可能存在網絡問題,數據解析錯誤等問題,導致數據的準確性降低,因此,對于互聯網采集的數據必須進行準確性校驗。
發明內容
本發明解決的技術問題:在互聯網數據采集過程中,也可能存在網絡問題,數據解析錯誤等問題,導致數據的準確性降低。
技術方案:為了解決上述技術問題,本發明采用的技術方案如下:
一種對互聯網數據采集結果校驗的方法,將數據分為常量、有規則變量和無規則變量三種類型,對常量使用靜態常量校驗方法進行校驗,對有規則變量進行規則校驗,對無規則變量進行基于樸素貝葉斯算法的臟數據識別,如果所有類型數據均通過校驗,則將數據存入應用數據庫,如果任一類型數據未通過校驗,則對數據采集程序進行校驗和更新。具體包括以下步驟:
S1:互聯網數據采集;
S2:常量校驗模塊對常量數據進行校驗,通過比較采集數據中的常量是否發生變化來判斷數據的準確性;
S3:變量校驗模塊對采集數據中的變量進行校驗,對于有規則變量,根據其是否符合校驗規則來判斷數據的準確性;對于無規則變量,基于樸素貝葉斯算法建立臟數據識別模型,識別采集的數據是否準確;
S4:如果所有類型數據均通過校驗,則執行步驟S6,如果某一類型數據未通過校驗,則執行步驟S5;
S5:檢查并更新數據采集程序,然后執行步驟S1;
S6:將數據存入入庫隊列;
S7:通過入庫隊列將數據保存至應用數據庫。
進一步地,所述常量校驗模塊對常量數據進行校驗的步驟為:
S21:人工提取采集數據中不經常變化的常量信息,并使用人工核對的方式,將常量保存入庫;
S22:使用scrapy框架采集數據,并使用xpath工具解析數據,將其中的常量數據與數據庫中保存的常量數據進行比較,如果比較結果一致,則繼續步驟S23,否則,轉步驟S24;
S23:通過常量校驗模塊,進入變量校驗模塊;
S24:檢查數據采集程序,分析不一致的原因,并更新程序。
進一步地,針對有規則的變量數據,采用正則表達式建立校驗規則,進行基于規則的數據校驗。
進一步地,基于規則的數據校驗方法,具體步驟為:
S31:人工提取采集數據中有規則的變量,并基于業務規則,為各個有規則變量建立其對應的校驗規則;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司,未經江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010324527.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于經濟學數據管理系統
- 下一篇:一種能夠安全管理的機電智能控制柜
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





