[發明專利]基于BP神經網絡數據挖掘的自動化數字采集與整合方法在審
| 申請號: | 202210073613.2 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114417181A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 蔣成信;彭曦;張宇航;張熙;李厚錦;陳年強;梁閩;戴國柱;郭峻杰;謝嘉;彭莉莉;孫堅 | 申請(專利權)人: | 長沙軍民先進技術研究有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/951;G06F16/955;G06N3/04;G06N3/08 |
| 代理公司: | 長沙市護航專利代理事務所(特殊普通合伙) 43220 | 代理人: | 莫曉齊 |
| 地址: | 410000 湖南省長沙市高新開發區尖山路*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bp 神經網絡 數據 挖掘 自動化 數字 采集 整合 方法 | ||
1.基于BP神經網絡數據挖掘的自動化數字采集與整合方法,其特征在于,包括以下步驟:
步驟S100:獲取采集任務要求信息,根據所述采集任務要求信息采用基于內容推薦算法從預設URL庫中匹配滿足預設要求的數據源;
步驟S200:根據所述數據源的屬性選擇信息采集方式并進行網頁內容信息提取;
步驟S300:對提取到的網頁內容信息進行鏈接抓取和采集任務子類劃分,生成子類采集請求任務;
步驟S400:將所述子類采集請求任務中的采集請求任務進行隊列分配并進行流水線管理,遵循廣度優先遍歷循環完成網頁抓取任務直到滿足預設爬蟲結束任務條件,得到抓取到的網絡數據;
步驟S600:對所述抓取到的網絡數據進行抽取分析得到更新后的網絡數據,根據所述采集任務要求信息和所述更新后的網絡數據基于預設的BP神經網絡進行網絡數據挖掘,對挖掘后的數據進行整合并存儲。
2.根據權利要求1所述的方法,其特征在于,步驟S100包括:
步驟S110:根據所述采集任務要求信息采用基于內容推薦算法從預設URL庫對應的網頁中采集信息數據;
步驟S120:對采集到的信息數據進行預處理,抽取得到有效信息;
步驟S130:從所述有效信息中抽取預設的關鍵詞作為標簽,對所述標簽按照預設的采集步驟采集候選標簽,按照預設的抽取原則對所述候選標簽進行標簽抽取,得到標簽集;
步驟S140:根據內容的協同過濾算法,循環計算所述采集任務要求信息與所述標簽集的內容相關性;
步驟S150:根據所述內容相關性和預設的內容相關性閾值匹配滿足要求的數據源。
3.根據權利要求2所述的方法,其特征在于,步驟S150包括:
當所述內容相關性小于預設的內容相關性閾值時,采用廣度優先遍歷方式訪問子鏈接,擴展預設URL庫,并循環步驟S110至步驟S140,直到存在內容相關性大于預設的內容相關性閾值的頁面;當所述內容相關性大于預設的內容相關性閾值時,選擇所述內容相關性最大的網頁的URL作為滿足要求的數據源。
4.根據權利要求1所述的方法,其特征在于,步驟S200中的信息采集方式,包括:
步驟S210:利用python的requests庫編寫爬蟲程序;或
步驟S220:利用python的selenium庫控制瀏覽器,編寫爬蟲程序;或
步驟S230:利用SVM向量機構建驗證碼識別模型實現驗證碼識別,輸入驗證碼,并編寫爬蟲程序。
5.根據權利要求4所述的方法,其特征在于,步驟S200包括:
步驟S240:在所述數據源中選擇URL,根據所述URL的屬性從所編寫的爬蟲程序中選擇一爬蟲程序;
步驟S250:根據所述URL建立HTTP鏈接,若鏈接建立成功則執行步驟S260,若鏈接建立不成功,則標記所述URL;
步驟S260:根據所述爬蟲抓取所述HTTP鏈接頁面內容提取網頁內容信息并整理存儲數據。
6.根據權利要求5所述的方法,其特征在于,步驟S240中根據所述URL的屬性從所編寫的爬蟲程序中選擇一爬蟲程序,包括:
步驟S241:對于采用通過Headers反爬蟲、對訪問頻率進行限制、對訪問IP進行限制、Cookie限制方式實現反爬蟲的網頁,采用步驟S210所述的爬蟲程序;或
步驟S242:對于采用通過動態頁面或蜜罐、隱藏鏈接方式實現反爬蟲的網頁,采用步驟S220所述的爬蟲程序;或
步驟S243:對于采用驗證碼方式實現反爬蟲的網頁,采用步驟S230所述的爬蟲程序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙軍民先進技術研究有限公司,未經長沙軍民先進技術研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210073613.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





