[發(fā)明專(zhuān)利]網(wǎng)頁(yè)抓取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201611121344.3 | 申請(qǐng)日: | 2016-12-08 |
| 公開(kāi)(公告)號(hào): | CN108197125B | 公開(kāi)(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 程志峰;邱柏宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F16/951 | 分類(lèi)號(hào): | G06F16/951;G06F16/955;A63F13/35;A63F13/60;A63F13/77 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 朱雅男 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁(yè) 抓取 方法 裝置 | ||
1.一種網(wǎng)頁(yè)抓取方法,其特征在于,所述方法包括:
設(shè)置TCP擁塞窗口的初始值為預(yù)設(shè)閾值,所述預(yù)設(shè)閾值是用于接收抓取到的目標(biāo)網(wǎng)頁(yè)頁(yè)面時(shí)所需要的經(jīng)驗(yàn)上限值;
由本次使用的抓取服務(wù)器抓取游戲網(wǎng)站上的所述目標(biāo)網(wǎng)頁(yè)頁(yè)面,所述本次使用的抓取服務(wù)器為n個(gè)抓取服務(wù)器中與所述游戲網(wǎng)站之間的通信時(shí)間最短,且與所述游戲網(wǎng)站對(duì)應(yīng)的游戲服務(wù)器屬于相同位置區(qū)域的同一互聯(lián)網(wǎng)服務(wù)商的所述抓取服務(wù)器,n為大于1的整數(shù);
根據(jù)所述目標(biāo)網(wǎng)頁(yè)頁(yè)面的網(wǎng)頁(yè)源代碼,識(shí)別H5游戲?qū)?yīng)的網(wǎng)頁(yè)頁(yè)面;
對(duì)所述H5游戲?qū)?yīng)的網(wǎng)頁(yè)頁(yè)面進(jìn)行動(dòng)態(tài)渲染,得到渲染后的網(wǎng)頁(yè)頁(yè)面;
從所述渲染后的網(wǎng)頁(yè)頁(yè)面中提取所述H5游戲?qū)?yīng)的游戲詳情信息;
其中,所述游戲詳情信息包括游戲名、游戲圖標(biāo)、游戲運(yùn)行圖片、游戲詳情、游戲運(yùn)行地址、游戲類(lèi)型中的至少一種。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)網(wǎng)頁(yè)頁(yè)面的網(wǎng)頁(yè)源代碼,識(shí)別H5游戲?qū)?yīng)的網(wǎng)頁(yè)頁(yè)面,包括:
檢測(cè)所述目標(biāo)網(wǎng)頁(yè)頁(yè)面的網(wǎng)頁(yè)源代碼是否符合預(yù)定條件;
若所述網(wǎng)頁(yè)源代碼符合所述預(yù)定條件,則將所述網(wǎng)頁(yè)頁(yè)面識(shí)別為所述H5游戲?qū)?yīng)的網(wǎng)頁(yè)頁(yè)面;
其中,所述預(yù)定條件中的至少一種條件:
所述網(wǎng)頁(yè)頁(yè)面的主題名稱(chēng)與預(yù)設(shè)游戲關(guān)鍵字匹配;和/或,
攜帶有采用預(yù)定渲染技術(shù)的代碼,所述預(yù)定渲染技術(shù)包括canvas和WebGL中的至少一種;和/或,
攜帶有預(yù)定游戲引擎對(duì)應(yīng)的代碼,所述預(yù)定游戲引擎包括Egret白鷺引擎,cocos2dx-js引擎,Game Maker Studio引擎,Construct 2引擎中的至少一個(gè)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)定條件包括至少兩種條件;
檢測(cè)所述目標(biāo)網(wǎng)頁(yè)頁(yè)面的網(wǎng)頁(yè)源代碼是否符合預(yù)定條件,包括:
檢測(cè)所述目標(biāo)網(wǎng)頁(yè)頁(yè)面的網(wǎng)頁(yè)源代碼是否符合第i種條件;
根據(jù)檢測(cè)結(jié)果和如下公式計(jì)算所述網(wǎng)頁(yè)源代碼是所述H5游戲?qū)?yīng)的網(wǎng)頁(yè)頁(yè)面的概率值:
檢測(cè)所述概率值是否大于預(yù)設(shè)閾值;
若所述概率值大于所述預(yù)設(shè)閾值,則確定所述網(wǎng)頁(yè)源代碼符合所述預(yù)定條件;
其中,y表示所述概率值,ai表示第i種所述條件對(duì)應(yīng)的權(quán)值,當(dāng)所述網(wǎng)頁(yè)源代碼符合所述第i種條件時(shí),bi的取值為大于0的預(yù)定值,當(dāng)所述網(wǎng)頁(yè)源代碼不符合所述第i種條件時(shí),bi的取值為0,1≤n≤N,N為所述預(yù)定條件的個(gè)數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抓取游戲網(wǎng)站上的目標(biāo)網(wǎng)頁(yè)頁(yè)面,包括:
通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取所述游戲網(wǎng)站的第一層URL對(duì)應(yīng)的第一網(wǎng)頁(yè)頁(yè)面;
從所述第一網(wǎng)頁(yè)頁(yè)面中獲取第二層URL,所述第二層URL是與游戲分類(lèi)對(duì)應(yīng)的URL;
通過(guò)所述網(wǎng)絡(luò)爬蟲(chóng)抓取所述第二層URL對(duì)應(yīng)的第二網(wǎng)頁(yè)頁(yè)面;
從所述第二網(wǎng)頁(yè)頁(yè)面中獲取第三層URL,所述第三層URL包括與所述H5游戲?qū)?yīng)的URL;
通過(guò)所述網(wǎng)絡(luò)爬蟲(chóng)抓取所述第三層URL對(duì)應(yīng)的第三網(wǎng)頁(yè)頁(yè)面,將所述第三網(wǎng)頁(yè)頁(yè)面確定為所述目標(biāo)網(wǎng)頁(yè)頁(yè)面。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過(guò)所述網(wǎng)絡(luò)爬蟲(chóng)抓取所述第二層URL對(duì)應(yīng)的第二網(wǎng)頁(yè)頁(yè)面之后,還包括:
從所述第二網(wǎng)頁(yè)頁(yè)面中提取所述游戲名和游戲簡(jiǎn)介信息;
將所述游戲簡(jiǎn)介信息添加至與所述游戲名對(duì)應(yīng)的所述游戲詳情信息中。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611121344.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





