[發明專利]一種對互聯網數據采集結果校驗的方法在審
| 申請號: | 202010324527.5 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111506566A | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 戴晶;蔣圣;謝乾;王吉;楊洋;沈愉悅;徐潤之;沈赟芳;汪濤 | 申請(專利權)人: | 江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06K9/62 |
| 代理公司: | 宜興知初知識產權代理事務所(普通合伙) 32418 | 代理人: | 高春濤 |
| 地址: | 214200 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 采集 結果 校驗 方法 | ||
1.一種對互聯網數據采集結果校驗的方法,其特征在于:將數據分為常量、有規則變量和無規則變量三種類型,對常量使用靜態常量校驗方法進行校驗,對有規則變量進行規則校驗,對無規則變量進行基于樸素貝葉斯算法的臟數據識別,如果所有類型數據均通過校驗,則將數據存入應用數據庫,如果任一類型數據未通過校驗,則對數據采集程序進行校驗和更新。
2.根據權利要求1所述的對互聯網數據采集結果校驗的方法,其特征在于,具體包括以下步驟:
S1:互聯網數據采集;
S2:常量校驗模塊對常量數據進行校驗,通過比較采集數據中的常量是否發生變化來判斷數據的準確性;
S3:變量校驗模塊對采集數據中的變量進行校驗,對于有規則變量,根據其是否符合校驗規則來判斷數據的準確性;對于無規則變量,基于樸素貝葉斯算法建立臟數據識別模型,識別采集的數據是否準確;
S4:如果所有類型數據均通過校驗,則執行步驟S6,如果某一類型數據未通過校驗,則執行步驟S5;
S5:檢查并更新數據采集程序,然后執行步驟S1;
S6:將數據存入入庫隊列;
S7:通過入庫隊列將數據保存至應用數據庫。
3.根據權利要求2所述的對互聯網數據采集結果校驗的方法,其特征在于,所述常量校驗模塊對常量數據進行校驗的步驟為:
S21:人工提取采集數據中不經常變化的常量信息,并使用人工核對的方式,將常量保存入庫;
S22:使用scrapy框架采集數據,并使用xpath工具解析數據,將其中的常量數據與數據庫中保存的常量數據進行比較,如果比較結果一致,則繼續步驟S23,否則,轉步驟S24;
S23:通過常量校驗模塊,進入變量校驗模塊;
S24:檢查數據采集程序,分析不一致的原因,并更新程序。
4.根據權利要求1所述的對互聯網數據采集結果校驗的方法,其特征在于,針對有規則的變量數據,采用正則表達式建立校驗規則,進行基于規則的數據校驗。
5.根據權利要求4所述的對互聯網數據采集結果校驗的方法,其特征在于,基于規則的數據校驗方法,具體步驟為:
S31:人工提取采集數據中有規則的變量,并基于業務規則,為各個有規則變量建立其對應的校驗規則;
S32:使用scrapy框架采集數據,并使用xpath工具解析數據,將對規則變量進行基于規則的校驗,如果通過校驗,則繼續步驟S33,否則,轉步驟S34;
S33:通過基于規則的數據校驗模塊,進入無規則變量校驗模塊;
S34:檢查數據采集程序,分析不一致的原因,并更新程序。
6.根據權利要求2所述的對互聯網數據采集結果校驗的方法,其特征在于:基于樸素貝葉斯算法建立臟數據識別模型的步驟為:
S41:數據采集:使用scrapy框架采集數據,并使用xpath工具解析數據;
S42:數據預處理:使用正則表達式過濾數據中的html標簽,設置數據最小長度Min,刪除長度小于Min的數據;
S43:人工識別數據是否為臟數據,得到樣本集,將樣本按一定比例分為訓練集和測試集;
S44:使用分詞工具,對數據進行分詞,將文本數據轉換為詞向量,選取出現頻率最高的n個單詞作為數據特征,記為x1,x2……xn;
S45:分別統計有效數據和臟數據類別下各個單詞出現的概率,統計得到P(xi|y),統計臟數據出現的概率和有效數據出現的概率,統計得到P(y),從而得到貝葉斯模型;
S46:使用測試集驗證模型的準確性,調整模型,提高模型精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司,未經江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;昆山百敖電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010324527.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于經濟學數據管理系統
- 下一篇:一種能夠安全管理的機電智能控制柜
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





