[發明專利]一種終止爬蟲工具爬取的方法及裝置有效
| 申請號: | 201811145418.6 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110968770B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 張鑫 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 終止 爬蟲 工具 方法 裝置 | ||
本發明公開了一種終止爬蟲工具爬取的方法及裝置,以解決在爬蟲工具根據不同的爬取任務進行爬取時,爬蟲工具爬取的數據不準確的問題。該方法包括:獲得爬蟲工具的爬取結果;判斷所述爬取結果是否滿足終止條件,所述終止條件能夠根據爬取需求進行配置;若所述爬取結果滿足所述終止條件,則控制所述爬蟲工具結束爬取。
技術領域
本發明涉及數據爬取技術領域,尤其涉及一種終止爬蟲工具爬取的方法及裝置。
背景技術
網絡爬蟲,又被稱為網頁蜘蛛、網絡機器人,是一種按照一定的規則、自動地抓取萬維網信息的程序或者腳本。
網絡爬蟲在爬取數據的過程中是根據終止條件來結束爬取的,例如:根據頁面加載完成的結果來確定是否結束爬取、根據翻頁次數來確定是否結束爬取、或者根據爬取深度來確定是否結束爬取。
然而,傳統的終止條件較為死板,網絡爬蟲在根據不同的爬取任務進行爬取時,會多爬取目標數據之外的數據,或者會少爬取目標數據中的部分數據,進而導致網絡爬蟲爬取的數據不準確的問題。
發明內容
鑒于上述問題,本發明實施例的目的是提供一種終止爬蟲工具爬取的方法及裝置,以解決在爬蟲工具根據不同的爬取任務進行爬取時,爬蟲工具爬取的數據不準確的問題。
為解決上述技術問題,本發明實施例提供以下技術方案:
第一方面,本發明實施例提供了一種終止爬蟲工具爬取的方法,所述方法包括:獲得爬蟲工具的爬取結果;判斷所述爬取結果是否滿足終止條件,所述終止條件能夠根據爬取需求進行配置;若所述爬取結果滿足所述終止條件,則控制所述爬蟲工具結束爬取。
在本發明其它實施例中,所述判斷所述爬取結果是否滿足終止條件,包括:當所述爬取結果包括已爬取數據時,判斷所述已爬取數據是否包括目標數據;如果包括,則判斷所述爬取結果滿足終止條件;和/或,當所述爬取結果包括爬取參數時,判斷所述爬取參數的值是否達到預設值;如果達到,則判斷所述爬取結果滿足終止條件。
在本發明其它實施例中,所述判斷所述已爬取數據是否包括目標數據,包括:分別獲得所述已爬取數據的特征和所述目標數據的特征;根據所述已爬取數據的特征與所述目標數據的特征的對比結果,確定所述已爬取數據是否包括所述目標數據;其中,若所述對比結果為所述已爬取數據的特征與所述目標數據的特征匹配,則確定所述已爬取數據包括所述目標數據;若所述對比結果為所述已爬取數據的特征與所述目標數據的特征不匹配,則確定所述已爬取數據不包括所述目標數據。
在本發明其它實施例中,所述判斷所述已爬取數據是否包括目標數據,包括:根據是否獲得預設內容確定所述已爬取數據是否包括所述目標數據,所述預設內容是所述爬蟲工具爬取到所述目標數據后在當前頁面中生成的;其中,若獲得所述預設內容,則確定所述已爬取數據包括所述目標數據;若未獲得所述預設內容,則確定所述已爬取數據不包括所述目標數據。
在本發明其它實施例中,所述預設內容包括:頁面元素和頁面請求數據中的至少一個。
在本發明其它實施例中,所述爬取參數包括:單一頁面操作次數、翻頁次數、爬取路徑深度、所述爬蟲工具在下一個節點需要爬取的頁面數量和所述爬蟲工具當前所處節點后的節點數與總節點數的比值中的至少一個。
第二方面,本發明實施例提供了一種終止爬蟲工具爬取的裝置,所述裝置包括:獲取模塊,被配置為獲得爬蟲工具的爬取結果;判斷模塊,被配置為判斷所述爬取結果是否滿足終止條件,所述終止條件能夠根據爬取需求進行配置;控制模塊,被配置為若所述爬取結果滿足所述終止條件,則控制所述爬蟲工具結束爬取。
在本發明其它實施例中,所述判斷模塊,被配置為當爬取結果包括已爬取數據時,判斷已爬取數據是否包括目標數據;如果包括,則判斷爬取結果滿足終止條件;和/或,當爬取結果包括爬取參數時,判斷爬取參數的值是否達到預設值;如果達到,則判斷爬取結果滿足終止條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811145418.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:瓦斯燃燒裝置
- 下一篇:一種爬取數據的方法及裝置





