[發明專利]一種基于規則可配置的網頁數據解析方法有效
| 申請號: | 201810701727.0 | 申請日: | 2018-06-30 |
| 公開(公告)號: | CN108959539B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 曹亮;羅山城 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/95 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 規則 配置 網頁 數據 解析 方法 | ||
本發明公開了一種基于規則可配置的網頁數據解析方法,包括以下步驟:S1.Web端任務創建:Web應用程序向服務器端發送數據請求,任務配置信息填寫完成后提交配置的信息;S2.網頁采集:獲取Web中通過任務配置配置的采集信息,后臺根據傳入的URL開始進行網頁的抓取;S3.網頁解析:獲取Web中通過任務配置配置的解析信息,并獲取采集網頁后的列表信息進行數據解析;S4.數據下載:通過任務列表查看任務結果,在任務結果中可對采集的網頁內容進行下載,也可對解析的數據進行查看和下載。本發明使用B/S架構的方式,方便使用,在對網頁進行采集以及網頁數據解析配置時,不需要進行大量操作。還可以方便的對網頁中動態數據進行獲取,并且使用協程,可以快速獲取網頁。
技術領域
本發明屬于網頁數據處理領域,尤其涉及一種基于規則可配置的網頁數據解析方法。
背景技術
近年來,隨著國內大數據戰略越來越清晰,數據抓取和信息采集系列產品迎來了巨大的發展機遇,采集產品數量也出現迅猛增長。網頁解析,即程序自動分析網頁內容、獲取信息,從而進一步處理信息,網頁解析是實現網絡爬蟲中不可缺少而且十分重要的一環。但是,目前的網頁數據解析方法在對網頁數據解析配置時,操作復雜;或是在對網頁中的動態數據獲取時,速度較慢。
發明內容
為了解決上述問題,本發明提出一種基于規則可配置的網頁數據解析方法,包括以下步驟:
S1. Web端任務創建:Web應用程序向服務器端發送數據請求,在任務配置頁面配置所需網頁起始URL、網頁采集規則和網頁解析規則,接著通過配置數據所屬的HTML標簽進行數據的提起,任務配置信息填寫完成后提交配置的信息;
S2. 網頁采集:獲取Web中通過任務配置配置的采集信息,后臺根據傳入的URL開始進行網頁的抓取,根據配置的網頁采集規則確定抓取方式,所述抓取方式包括增強模式和普通模式,所述增強模式結合使用Selenium與ChromeDriver,以及使用Python的UserAgent庫構造訪問頭的方式去訪問對應的URL,所述普通模式使用Python的aiohttp庫和UserAgent庫構造訪問頭的方式去訪問對應的URL;訪問成功完成后,將網頁信息以及URL、頁數以及頁面等級保存到列表中;當網頁都訪問完成后,將抓取到網頁信息以HTML文件的形式存入到服務器中,并將對應信息存入數據庫;
S3. 網頁解析:獲取Web中通過任務配置配置的解析信息,并獲取采集網頁后的列表信息進行數據解析,通過的Python的BeautifulSoup庫進行頁面的解析;在解析時根據頁面配置的HTML標簽,以標簽類型和值方式提取數據及相關標簽;解析結束后,將數據存入數據庫中;
S4. 數據下載:通過任務列表查看任務結果,在任務結果中可對采集的網頁內容進行下載,也可對解析的數據進行查看和下載。
進一步地,所述步驟S1的網頁采集規則包括是否采集子頁、是否采集下一頁和是否使用增強模式。
進一步地,所述步驟S1的網頁解析規則最多為三行,每一行的網頁解析規則單獨去解析網頁,最終合并為結果,并將結果存儲到數據庫中。
再進一步地,所述網頁解析規則包括四個參數,其中第一個參數用于選擇網頁解析規則,第二個參數和第四個參數為網頁解析規則對應的配置信息,第三個參數為第二個參數配置信息與第四個參數配置信息的關系,所述關系為含有、不含和僅含中的一種。
進一步地,所述步驟S2選用增強模式進行網頁采集時,如果需要抓取子頁,則會打開兩個ChromeDriver,一個進行一級頁面的訪問,另一個進行子頁頁面的訪問;該過程為訪問一個一級頁面后,通過配置的標簽信息,獲取到該一級頁面的子頁URL鏈接后,對子頁進行訪問;如果還需要抓取下一頁,則通過配置的下一頁標簽獲取到下一頁鏈接進行訪問。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810701727.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:全文檢索系統及方法
- 下一篇:一種基于網站開發實現高可擴展性頁面輸出的新方法





