[發明專利]一種基于網頁數據的高速主題爬蟲方法在審
| 申請號: | 201810761246.9 | 申請日: | 2018-07-12 |
| 公開(公告)號: | CN109165333A | 公開(公告)日: | 2019-01-08 |
| 發明(設計)人: | 向勇;梁超;朱焱麟 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 閆樹平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 網頁數據 異常處理 主題爬蟲 多線程 計算機數據挖掘 格式化 程序組件 存儲機制 高穩定性 技術框架 領域用戶 目標數據 深度開發 網頁解析 高速性 規整器 下載器 構建 調用 數據庫 存儲 自動化 成熟 開發 | ||
本發明涉及計算機數據挖掘技術領域,具體為一種基于網頁數據的高速主題爬蟲方法。本發明利用HTML下載器、BeautifulSoup4網頁解析器、json格式規整器、異常處理機制except、多線程機制threading、I/O操作eventlet共同構成的一個爬蟲方法?;陂_源程序組件構建的爬蟲,并且在利用原有技術框架的基礎之上進行深度開發定制,滿足各領域用戶的特定需求,節省開發的時間與經費的成本。利用已有的成熟的多線程機制與異常處理機制與I/O操作,具備高速性、高自動化、高穩定性的特性,解決了普通爬蟲速度慢,異常多的問題。使用的格式化存儲機制特別適用于表格類數據庫,使所爬取的目標數據能夠快速的存儲和調用。
技術領域
本發明涉及計算機數據挖掘技術領域,具體為一種基于網頁數據的高速主題爬蟲方法。
背景技術
隨著大數據的時代來臨,互聯網承載的數據存儲量呈現爆炸性增長。用戶常常通過搜索引擎這樣一個檢索工具,來作為互聯網的訪問入口和指南,但是,使用搜索引擎來獲取數據信息均存在著一定的缺陷,即無法完美匹配。例如不同專業、背景的用戶往往有不同的檢索目的和需求,但是使用搜索引擎所返回的結果通常包含大量用的戶不關心的內容。商業搜索引擎服務于社會大眾,追求效果能夠能夠覆蓋所有領域,所以其無法按用戶的需求進行定制,從而常常反饋給用戶的信息太多,噪聲數據太大。
這種情況下能夠按需抓取相關網站數據的主題爬蟲應運而生。主題爬蟲即為自動下載網頁的程序,它根據需求,有選擇的訪問互聯網上的網頁與相關的鏈接,下載用戶所需數據。作為一種智能的Web爬蟲,它的工作原理與一般的爬蟲相似。不同的是,主題爬蟲不追求大面積數據的覆蓋,而是通過自然語言識別、圖像分析等方式篩選網站上的所有數據,去除噪聲,并將爬取的目標數據自動存入本地,方便用戶查詢與使用。
對于主題爬蟲,在爬取數據的過程中常常有兩個需要解決的重點問題是:一,程序的連接速度問題,網站服務器響應慢通常會導致爬蟲程序的連接速度緩慢,從而使爬蟲程序運行時間漫長,程序錯誤或者假死;二,數據存儲問題,不同的目標數據通常在數據庫中的物理模型不同,使得存儲難度加大;就目前來說,現存的開源爬蟲缺乏定制性,不能很好的滿足用戶的精準爬取需求。
因此,如何提升主題爬蟲的爬取速度與穩定性,并具有通用存儲方法,是現存爬蟲技術的首要問題。
發明內容
針對上述存在問題或不足,為提升主題爬蟲的爬取速度與穩定性,并具有通用存儲方法,本發明提供了一種基于網頁數據的高速主題爬蟲方法。
具體技術方案步驟如下:
步驟1、通過網站前端的頁面設定爬取入口、使用requests構造HTML下載器;所述HTML下載器用于獲取URL響應,并為響應配備utf-8的解碼器;
步驟2、通過BeautifulSoup4網頁解析器解析網頁響應,通過篩選器獲取網頁相關數據,以及獲取下個將要爬取的網頁URL;
步驟3、將解析后所有需求數據所在的網頁URL加入threading線程池中,并使用requests構造HTML下載器并發連接URL獲得網頁響應,在此過程中加入超時機制eventlet,避免因異常導致的I/O阻塞;
步驟4、將步驟3獲得的所有網頁響應依次加入隊列,在隊頭使用BeautifulSoup4解析響應,篩選器獲取網頁目標數據以及對應網頁需要的下層URL;
步驟5、將篩選器獲取的目標數據通過json格式規整器進行規整,并將結果存儲到系統中。
進一步的,在爬蟲程序運行的整個過程中,采用異常處理機制監控并處理連接URL、解析頁面、格式化寫入時出現的響應超時,解碼錯誤,鍵值錯誤的異常,避免程序異常中斷。所述異常處理機制選用except。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810761246.9/2.html,轉載請聲明來源鉆瓜專利網。





