[發明專利]一種基于瀏覽器擴展的數據抓取方法及系統在審
| 申請號: | 201810495217.2 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN108932285A | 公開(公告)日: | 2018-12-04 |
| 發明(設計)人: | 何涇沙;于聰;楊鎮寧;王亞芹;段夢園;杜晉輝;葛加可 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 100022 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 瀏覽器 擴展插件 網頁地址 預設 目標網頁地址 目標數據 配置文件 數據抓取 預設規則 網頁 抓取 模擬瀏覽器 可擴展性 匹配成功 特性開發 用戶使用 整體開發 可擴展 解析 匹配 頁面 數據庫 | ||
本發明提供一種基于瀏覽器擴展的數據抓取方法及系統,其中方法包括:獲取瀏覽器中當前網頁對應的當前網頁地址,將當前網頁地址與預設配置文件中的目標網頁地址進行匹配,預設配置文件中包含至少一個目標網頁地址;當匹配成功時,從預設數據庫中獲取當前網頁地址對應的預設規則,根據預設規則從當前網頁中抓取目標數據。該方法及系統無需模擬瀏覽器,僅需利用瀏覽器可擴展的特性開發瀏覽器擴展插件,利用瀏覽器擴展插件從瀏覽器解析好的頁面中提取目標數據,降低了整體開發難度,且可擴展性強;同時對于普通用戶來說,僅需安裝和操作瀏覽器的擴展插件即可,是一種類似于“所見即所得”的體驗,有效提高了用戶使用友好度。
技術領域
本發明涉及網絡數據抓取技術領域,更具體地,涉及一種基于瀏覽器擴展的數據抓取方法及系統。
背景技術
進入大數據時代,信息以“爆炸”的方式增長——以新浪微博為例,其日均微博更新多達1.2億條。這種“爆炸”式增長的信息使互聯網上的數據以幾何倍數增長,也促使數據以更快的速度進入海量時代。海量數據在未來將體現出其巨大價值,對人們的生活和學習產生了巨大影響,同時也增加了人們有效獲取數據的難度。
目前,以網絡爬蟲技術為基礎從Web頁面中抓取數據成為熱門,網絡爬蟲的熱門造成網絡爬蟲技術種類繁多,簡單的從功能上可以劃分為通用網絡爬蟲和聚焦網絡爬蟲,不論是這兩類網絡爬蟲還是其他方式劃分的網絡爬蟲,現有的爬蟲技術的核心思想均是相同的,且核心思想都是模擬瀏覽器的方式下載網頁和解析網頁,從中采集數據。然而其中模擬瀏覽器功能的過程增加了網絡爬蟲開發的難度,也是最容易發生bug的地方,當模擬不完善時最容易觸發采集對象服務器的反爬蟲策略,無形中大幅度提高了開發網絡爬蟲系統人員的要求。同時,設計和實現網絡爬蟲系統還要考慮用戶有計算機相關背景和知識,導致用戶使用友好度差。
有鑒于此,亟待提供一種開發難度小且用戶使用友好度高的數據抓取方法及系統。
發明內容
本發明為了克服現有技術中的網絡爬蟲系統開發難度大且用戶使用友好度差的問題,提供一種基于瀏覽器擴展的數據抓取方法及系統。
一方面,本發明提供一種基于瀏覽器擴展的數據抓取方法,包括:
獲取瀏覽器中當前網頁對應的當前網頁地址,將所述當前網頁地址與預設配置文件中的目標網頁地址進行匹配,所述預設配置文件中包含至少一個目標網頁地址;
當匹配成功時,從預設數據庫中獲取所述當前網頁地址對應的預設規則,根據所述預設規則從所述當前網頁中抓取目標數據。
優選地,所述將所述當前網頁地址與預設配置文件中的目標網頁地址進行匹配,之前還包括:
根據用戶需求獲取所有所述目標網頁地址,將所有所述目標網頁地址配置在所述預設配置文件中。
優選地,所述從預設數據庫中獲取所述當前網頁地址對應的預設規則,之前還包括:
根據用戶需求配置每個所述目標網頁地址對應的預設規則,將每個所述目標網頁地址與對應的預設規則關聯存儲在所述預設數據庫中。
優選地,所述從預設數據庫中獲取所述當前網頁地址對應的預設規則,之前還包括:
向所述當前網頁發送數據抓取請求,以使得用戶對所述數據抓取請求進行確認;
相應地,當接收到用戶的確認操作時,從預設數據庫中獲取所述當前網頁地址對應的預設規則,根據所述預設規則從所述當前網頁中抓取目標數據。
優選地,所述根據所述預設規則從所述當前網頁中抓取目標數據,之后還包括:
當接收到用戶的頁面跳轉請求時,根據所述預設規則從所述當前網頁的下一網頁中抓取所述目標數據。
優選地,所述根據所述預設規則從所述當前網頁中抓取目標數據,之后還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810495217.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:通用邏輯調度方法、電子設備及可讀存儲介質
- 下一篇:一種數據查詢方法及裝置





