[發明專利]一種基于網頁數據的高速主題爬蟲方法在審
| 申請號: | 201810761246.9 | 申請日: | 2018-07-12 |
| 公開(公告)號: | CN109165333A | 公開(公告)日: | 2019-01-08 |
| 發明(設計)人: | 向勇;梁超;朱焱麟 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 閆樹平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 網頁數據 異常處理 主題爬蟲 多線程 計算機數據挖掘 格式化 程序組件 存儲機制 高穩定性 技術框架 領域用戶 目標數據 深度開發 網頁解析 高速性 規整器 下載器 構建 調用 數據庫 存儲 自動化 成熟 開發 | ||
1.一種基于用戶定制類型的高速主題爬蟲方法,具體步驟如下:
步驟1、通過網站前端的頁面設定爬取入口、使用requests構造HTML下載器;所述HTML下載器用于獲取URL響應,并為響應配備utf-8的解碼器;
步驟2、通過BeautifulSoup4網頁解析器解析網頁響應,通過篩選器獲取網頁相關數據,以及獲取下個將要爬取的網頁URL;
步驟3、將解析后所有需求數據所在的網頁URL加入threading線程池中,并使用requests構造HTML下載器并發連接URL獲得網頁響應,在此過程中加入超時機制eventlet,避免因異常導致的I/O阻塞;
步驟4、將步驟3獲得的所有網頁響應依次加入隊列,在隊頭使用BeautifulSoup4解析響應,篩選器獲取網頁目標數據以及對應網頁需要的下層URL;
步驟5、將篩選器獲取的目標數據通過json格式規整器進行規整,并將結果存儲到系統中。
2.如權利要求1所述基于用戶定制類型的高速主題爬蟲方法,其特征在于:
在爬蟲程序運行的整個過程中,采用異常處理機制監控并處理連接URL、解析頁面、格式化寫入時出現的響應超時,解碼錯誤,鍵值錯誤的異常。
3.如權利要求1所述基于用戶定制類型的高速主題爬蟲方法,其特征在于:所述異常處理機制選用except。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810761246.9/1.html,轉載請聲明來源鉆瓜專利網。





