[發明專利]網頁內容的抓取方法、裝置、設備及存儲介質在審
| 申請號: | 201710120775.6 | 申請日: | 2017-03-02 |
| 公開(公告)號: | CN108536699A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 劉永;魏炎炎;陽健;張旭祥;李曙聰;牛朋濤;張瑩瑩 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 網頁內容 自定義配置 存儲介質 解析 特征值存儲 存儲容器 快速獲取 內容獲取 入口地址 網頁抓取 信息抓取 關聯 配置 開發 | ||
本發明實施例公開了一種網頁內容的抓取方法、裝置、設備及存儲介質。所述方法包括:獲取用戶輸入的自定義配置信息,其中,所述自定義配置信息包括:與待抓取內容對應的抓取入口地址;根據所述自定義配置信息抓取至少一個網頁內容;對抓取的所述網頁內容進行解析,獲取與所述網頁內容關聯的抓取特征對應的特征值;將獲取的所述特征值存儲于相應的存儲容器中。本發明實施例提供的網頁內容的抓取方法,通過自定義配置實現網頁內容的抓取,并通過解析抓取內容獲取抓取特征對應的特征值,實現了數據的快速獲取,實現了網頁抓取的配置化,降低了開發成本。
技術領域
本發明實施例涉及數據處理技術,尤其涉及一種網頁內容的抓取方法、裝置、設備及存儲介質。
背景技術
目前,很多公司項目都需要大數據的支持,數據的獲取很大程度上是源于公開的平臺類網站公布的官網信息,這些信息可以對企業衡量產品價值、或者分析市場等應用提供有用的指導,但是數據的獲取是一大瓶頸,不同類型的網站在頁面布局、信息展示內容都差距非常大,現有技術中需要根據網站類型定制化的開發符合需要的網頁抓取系統,開發成本大,時間消耗多。
發明內容
本發明實施例提供一種網頁內容的抓取方法、裝置、設備及存儲介質,以實現配置化的網頁抓取。
第一方面,本發明實施例提供了一種網頁內容的抓取方法,包括:
獲取用戶輸入的自定義配置信息,其中,所述自定義配置信息包括:與待抓取內容對應的抓取入口地址;
根據所述自定義配置信息抓取至少一個網頁內容;
對抓取的所述網頁內容進行解析,獲取與所述網頁內容關聯的抓取特征對應的特征值;
將獲取的所述特征值存儲于相應的存儲容器中。
第二方面,本發明實施例還提供了一種網頁內容的抓取裝置,該裝置包括:
信息獲取模塊,用于獲取用戶輸入的自定義配置信息,其中,所述自定義配置信息包括:與待抓取內容對應的抓取入口地址;
網頁內容抓取模塊,用于根據所述自定義配置信息抓取至少一個網頁內容;
特征值獲取模塊,用于對抓取的所述網頁內容進行解析,獲取與所述網頁內容關聯的抓取特征對應的特征值;
特征值存儲模塊,用于將獲取的所述特征值存儲于相應的存儲容器中。
第三方面,本發明實施例還提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如本發明實施例中任一所述的網頁內容抓取方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如本發明實施例中任一所述的網頁內容的抓取方法。
本發明實施例提供的網頁內容的抓取方法,通過自定義配置實現網頁內容的抓取,并通過解析抓取內容獲取抓取特征對應的特征值,實現了數據的快速獲取,實現了網頁抓取的配置化,降低了開發成本。
附圖說明
圖1為本發明實施例一提供的網頁內容的抓取方法的流程圖;
圖2是本發明實施例二提供的一種網頁內容的抓取方法的流程圖;
圖3a是本發明實施例三提供的一種網頁內容的抓取方法的流程圖;
圖3b是本發明實施例三提供的一種網頁內容的抓取方法中的抓取頁面示意圖;
圖4a是本發明實施例四提供的一種網頁內容的抓取方法的流程圖;
圖4b是本發明實施例四提供的一種網頁內容的抓取方法中一個子目錄下的網頁示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710120775.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:web數據三維展示方法及裝置
- 下一篇:一種無埋點收集日志的方法





