[發明專利]網站資源的爬取方法、裝置、系統和計算機設備有效
| 申請號: | 201910578458.8 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110297962B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 孫加亮 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/904 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 資源 方法 裝置 系統 計算機 設備 | ||
本發明公開了一種網站資源的爬取方法、裝置、系統、計算機設備和存儲介質。其中該方法包括:確定用戶設計的流程圖;其中,流程圖中包括多個節點和節點間的連接關系,每個節點對應一個控件;基于流程圖中的節點所對應的控件,生成針對目標網站的爬取配置規則;將爬取配置規則發送給服務端,其中,爬取配置規則用于指示服務端向目標網站發送網絡請求,并對目標網站返回的網站內容進行數據爬?。唤邮辗斩朔祷氐呐廊〗Y果信息并進行展示。該方法由服務端對該爬取配置規則進行解析,并發起網絡請求,能夠有效的避免IP被封,并將爬取結果信息進行展示,可以方便用戶預覽爬取結果,提升用戶體驗。
技術領域
本發明涉及計算機應用領域,尤其涉及一種網站資源的爬取方法、裝置、系統、計算機設備和計算機可讀存儲介質。
背景技術
隨著互聯網技術的快速發展,互聯網上存在海量的數據。搜索引擎為了方便為用戶提供搜索功能服務,經常需要在互聯網海量的數據中搜索并分析,爬蟲技術的出現有效提高了搜索效率。爬蟲技術主要通過對特定的資源進行標識、爬取以及清理等措施,將有效信息進行提取。隨著時代的發展,爬蟲技術也將得到飛速的發展,應用到更多的應用領域,提高數據的利用率,促進社會的發展。
如何配置準確的爬取規則對于準確的數據采集起著至關重要的決定性因素。相關技術中,對于爬取規則的配置主要通過在瀏覽器中直接配置,然后預覽相應的爬取結果,存在爬取效率較低,且不易查找爬取失敗的原因,對于信息較多的頁面不易配置自己想要的信息等缺點,會降低研發人員的積極性,并且這種開發方式費時費力,嚴重降低了研發人員的開發效率。
發明內容
本發明的目的旨在至少在一定程度上解決上述的技術問題之一。
為此,本發明的第一個目的在于提出一種網站資源的爬取方法。該方法可以提高配置的靈活性和有效性,在保證準確性的前提下,能夠有效的節省人力成本和時間成本,并由服務端對該爬取配置規則進行解析,并發起網絡請求,能夠有效的避免IP被封,并將爬取結果信息進行展示,可以方便用戶預覽爬取結果,提升用戶體驗。
本發明的第二個目的在于提出另一種網站資源的爬取方法。
本發明的第三個目的在于提出一種網站資源的爬取裝置。
本發明的第四個目的在于提出另一種網站資源的爬取裝置。
本發明的第五個目的在于提出一種網站資源的爬取系統。
本發明的第六個目的在于提出一種計算機設備。
本發明的第七個目的在于提出一種計算機可讀存儲介質。
為上述目的,本發明第一方面實施例提出的網站資源的爬取方法,應用于WEB端,所述方法包括:確定用戶設計的流程圖;其中,所述流程圖中包括多個節點和節點間的連接關系,每個所述節點對應一個控件;基于所述流程圖中的節點所對應的控件,生成針對目標網站的爬取配置規則;將所述爬取配置規則發送給服務端,其中,所述爬取配置規則用于指示所述服務端向所述目標網站發送網絡請求,并對所述目標網站返回的網站內容進行數據爬??;接收所述服務端返回的爬取結果信息,并將所述爬取結果信息進行展示。
根據本發明的一個實施例,所述確定用戶設計的流程圖,包括:提供流程設計界面,其中,所述流程設計界面具有多個可用控件;接收所述用戶從所述多個可用控件中選擇的控件;接收所述用戶輸入的針對所述選擇的控件間的連接關系;根據所述用戶選擇的控件和所述連接關系,生成所述用戶設計的流程圖。
根據本發明的一個實施例,所述多個可用控件包括開始控件、選擇控件和保存控件;其中,所述開始控件,用于進行待爬取網站的URL地址的輸入;所述選擇控件,用于粗粒度選取待爬取區域;所述保存控件,用于細粒度的對待爬取信息的爬蟲規則進行配置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910578458.8/2.html,轉載請聲明來源鉆瓜專利網。





