[發明專利]使用爬蟲獲取外部數據的方法及裝置在審
| 申請號: | 201910320214.X | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110188258A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 申超波;阮曉雯;徐亮 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/28 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 爬蟲程序 抓取 獲取數據 結果數據 外部數據 頁面 數據獲取指令 觸發條件 獲取指令 人工操作 自動調用 調用 解析 存儲 | ||
本發明實施例提供了一種使用爬蟲獲取外部數據的方法及裝置。一方面,該方法包括:根據觸發條件獲取數據獲取指令;根據所述數據獲取指令調用爬蟲程序;接收所述爬蟲程序抓取的爬蟲頁面;解析所述爬蟲頁面得到結果數據,并將所述結果數據存儲至mysql數據庫。通過本發明,解決了現有技術中不能自動調用爬蟲程序獲取數據的技術問題,提高了使用爬蟲抓取數據的效率,減少了人工操作。
【技術領域】
本發明涉及計算機領域,尤其涉及一種使用爬蟲獲取外部數據的方法及裝置。
【背景技術】
現有技術中,爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,爬蟲是目前所有公司獲取外部數據最常用和最重要的手段,對于業務內數據能夠起到很好的補充作用。
現有技術中,但是現在爬蟲領域存在較多技術,但每種技術的功能又過于單一,且爬蟲的自動化及爬蟲的數據持久化都比較缺乏,但是在爬蟲獲取到數據后,需要用戶進一步篩選和處理,效率較低,在應用到大型數據庫建立和周期任務時,需要消耗大量的人力。
針對相關技術中存在的上述問題,目前尚未發現有效的解決方案。
【發明內容】
有鑒于此,本發明實施例提供了一種使用爬蟲獲取外部數據的方法及裝置。
一方面,本發明實施例提供了一種使用爬蟲獲取外部數據的方法,所述方法包括:根據觸發條件獲取數據獲取指令;根據所述數據獲取指令調用爬蟲程序;接收所述爬蟲程序抓取的爬蟲頁面;解析所述爬蟲頁面得到結果數據,并將所述結果數據存儲至mysql數據庫。
可選的,根據所述數據獲取指令調用爬蟲程序包括:將所述數據獲取指令轉換為爬蟲任務;確定所述爬蟲任務的難度系數;根據所述難度系數確定爬蟲程序的數量以及所述爬蟲程序的爬蟲請求方式。
可選的,確定所述爬蟲任務的難度系數包括:根據以下至少之一所述爬蟲任務的難度系數:數據源的數量,數據的大小,數據分布區域的大小,鏈接地址的復雜度。
可選的,根據所述難度系數確定爬蟲程序的數量以及所述爬蟲程序的爬蟲請求方式包括:在所述難度系數低于預設閾值時,選擇一個爬蟲程序和第一類型的爬蟲請求方式;在所述難度系數大于或等于所述預設閾值時,選擇多個爬蟲程序和多個對應的第二類型的爬蟲請求方式;其中,所述第一類型的爬蟲請求方式包括以下之一:直接獲取統一資源定位符URL、利用代理請求;所述第二類型的爬蟲請求方式包括以下之一:采用模型瀏覽器請求、采用真實瀏覽器內核請求。
可選的,根據所述數據獲取指令調用爬蟲程序包括:將所述數據獲取指令轉換為爬蟲任務;調用分布式網絡中的多個爬蟲節點,其中,爬蟲程序分布在每個爬蟲節點上,爬蟲節點設置在分布式網絡的服務器中;獲取分布式網絡中每個爬蟲節點的處理能力;根據每個爬蟲節點的處理能力為每個爬蟲節點分配爬蟲子任務,其中,所述爬蟲任務包括多個爬蟲子任務。
可選的,在分層解析所述爬蟲頁面時,解析所述爬蟲頁面得到結果數據包括:接收到上層對當前層的調用請求;根據所述調用請求中攜帶的元數據,確定目標操作對象所繼承的目標實體,其中,所述目標操作對象為當前層需要解析的對象,所述目標實體為所述元數據定義的數據;根據所述目標實體,對所述操作對象執行解析操作。
可選的,解析所述爬蟲頁面得到結果數據包括:解析所述爬蟲頁面得到與所述爬蟲頁面對應的原始數據;對所述原始數據進行數據清洗及篩選處理,刪除包含黑名單詞庫的數據包,得到第一結果數據;在所述第一結果數據中選擇包含關鍵詞的數據包,得到第二結果數據。
另一方面,本發明實施例提供了一種使用爬蟲獲取外部數據的裝置,所述裝置包括:獲取模塊,用于根據觸發條件獲取數據獲取指令;調用模塊,用于根據所述數據獲取指令調用爬蟲程序;接收模塊,用于接收所述爬蟲程序抓取的爬蟲頁面;解析模塊,用于解析所述爬蟲頁面得到結果數據,并將所述結果數據存儲至mysql數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910320214.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種移動應用數據采集方法及裝置
- 下一篇:一種可配置化的數據抓取方法和裝置





