[發明專利]網頁抓取方法及裝置有效
| 申請號: | 201611121344.3 | 申請日: | 2016-12-08 | 
| 公開(公告)號: | CN108197125B | 公開(公告)日: | 2020-10-09 | 
| 發明(設計)人: | 程志峰;邱柏宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 | 
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;A63F13/35;A63F13/60;A63F13/77 | 
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 朱雅男 | 
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 網頁 抓取 方法 裝置 | ||
本發明公開了一種網頁抓取方法及裝置,屬于計算機網絡領域。所述方法包括:抓取游戲網站上的目標網頁頁面;根據目標網頁頁面的網頁源代碼,識別H5游戲對應的網頁頁面;對H5游戲對應的網頁頁面進行動態渲染,得到渲染后的網頁頁面;渲染后的網頁頁面中提取H5游戲對應的游戲詳情信息。本發明通過網頁源代碼識別出H5游戲對應的網頁頁面,使得服務器能夠從渲染后的該網頁頁面中提取出H5游戲對應的游戲詳情信息,避免了抓取結果需要大量人工來篩選和信息提取的問題,達到了根據網頁的源代碼準確識別H5游戲對應的網頁頁面,進行從網頁頁面中提取游戲詳情信息,從而提高提取過程的效率和準確率的效果。
技術領域
本發明實施例涉及計算機網絡領域,特別涉及一種網頁抓取方法及裝置。
背景技術
H5(Hypertext Markup Language 5,超文本鏈接標示語言5)游戲是指在諸如智能手機、平板電腦等電子設備的Web端上運行的游戲。
在建立一個H5游戲網站時,需要網站管理員收集多個H5游戲的游戲詳情信息,比如:游戲名、游戲簡介信息、游戲運行圖片等。在收集過程中,網站管理員會使用網絡爬蟲對已有的H5游戲網站的所有網頁頁面進行抓取,所有網頁頁面中包括H5游戲對應的網頁頁面和非H5游戲對應的網頁頁面;然后由人工在所有網頁頁面中提取與H5游戲有關的游戲詳情信息。
由于在上述技術中,網絡爬蟲只能簡單地抓取所有網頁頁面,需要大量的人工來識別H5游戲所對應的網頁頁面,以及從H5游戲所對應的網頁頁面提取信息,整個提取過程的效率較為低下,準確率也較低。
發明內容
為了解決現有技術的問題,本發明實施例提供了一種網頁抓取方法及裝置。所述技術方案如下:
第一方面,提供了一種網頁抓取方法,所述方法包括:
抓取游戲網站上的目標網頁頁面;
根據所述目標網頁頁面的網頁源代碼,識別H5游戲對應的網頁頁面;
對所述H5游戲對應的網頁頁面進行動態渲染,得到渲染后的網頁頁面;
從所述渲染后的網頁頁面中提取所述H5游戲對應的游戲詳情信息;
其中,所述游戲詳情信息包括游戲名、游戲圖標、游戲運行圖片、游戲詳情、游戲運行地址、游戲類型中的至少一種。
第二方面,提供了一種網頁抓取裝置,所述裝置包括:
抓取模塊,用于抓取游戲網站上的目標網頁頁面;
識別模塊,用于根據所述目標網頁頁面的網頁源代碼,識別H5游戲對應的網頁頁面;
渲染模塊,用于對所述H5游戲對應的網頁頁面進行動態渲染,得到渲染后的網頁頁面;
提取模塊,用于從所述渲染后的網頁頁面中提取所述H5游戲對應的游戲詳情信息;
其中,所述游戲詳情信息包括游戲名、游戲圖標、游戲運行圖片、游戲詳情、游戲運行地址、游戲類型中的至少一種。
本發明實施例提供的技術方案帶來的有益效果是:
通過抓取游戲網站上的目標網頁頁面;根據目標網頁頁面的網頁源代碼,識別H5游戲對應的網頁頁面;對H5游戲對應的網頁頁面進行動態渲染,得到渲染后的網頁頁面;從渲染后的網頁頁面中提取H5游戲對應的游戲詳情信息;使得服務器能夠根據網頁源代碼識別出H5游戲對應的網頁頁面,從渲染后的該網頁頁面中提取出H5游戲對應的游戲詳情信息,避免了抓取結果需要大量人工來篩選和信息提取的問題,達到了根據網頁的源代碼準確識別H5游戲對應的網頁頁面,進行從網頁頁面中提取游戲詳情信息,從而提高提取過程的效率和準確率的效果。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611121344.3/2.html,轉載請聲明來源鉆瓜專利網。





