[發(fā)明專利]網(wǎng)站資源的爬取方法、裝置、系統(tǒng)和計算機(jī)設(shè)備有效
| 申請?zhí)枺?/td> | 201910578458.8 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110297962B | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計)人: | 孫加亮 | 申請(專利權(quán))人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/904 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)站 資源 方法 裝置 系統(tǒng) 計算機(jī) 設(shè)備 | ||
1.一種網(wǎng)站資源的爬取方法,應(yīng)用于WEB端,其特征在于,所述方法包括:
確定用戶設(shè)計的流程圖;其中,所述流程圖中包括多個節(jié)點和節(jié)點間的連接關(guān)系,每個所述節(jié)點對應(yīng)一個控件;
基于所述流程圖中的節(jié)點所對應(yīng)的控件,生成針對目標(biāo)網(wǎng)站的爬取配置規(guī)則;
將所述爬取配置規(guī)則發(fā)送給服務(wù)端,其中,所述爬取配置規(guī)則用于指示所述服務(wù)端向所述目標(biāo)網(wǎng)站發(fā)送網(wǎng)絡(luò)請求,并對所述目標(biāo)網(wǎng)站返回的網(wǎng)站內(nèi)容進(jìn)行數(shù)據(jù)爬取;
接收所述服務(wù)端返回的爬取結(jié)果信息,并將所述爬取結(jié)果信息進(jìn)行展示;
所述方法還包括:
將所述流程圖提供給所述用戶;
接收所述用戶針對所述流程圖中節(jié)點的選擇操作;
確定所述用戶選擇的節(jié)點所對應(yīng)的控件,并將所述用戶選擇的節(jié)點所對應(yīng)的控件發(fā)送給所述服務(wù)端,以使服務(wù)器從所述爬取配置規(guī)則中確定出所述用戶選擇的節(jié)點控件所對應(yīng)的配置信息,并根據(jù)所述用戶選擇的節(jié)點控件所對應(yīng)的配置信息,從所述目標(biāo)網(wǎng)站中爬取對應(yīng)內(nèi)容;
接收所述服務(wù)端從所述目標(biāo)網(wǎng)站中爬取到的內(nèi)容,并將所述爬取到的內(nèi)容進(jìn)行展示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定用戶設(shè)計的流程圖,包括:
提供流程設(shè)計界面,其中,所述流程設(shè)計界面具有多個可用控件;
接收所述用戶從所述多個可用控件中選擇的控件;
接收所述用戶輸入的針對所述選擇的控件間的連接關(guān)系;
根據(jù)所述用戶選擇的控件和所述連接關(guān)系,生成所述用戶設(shè)計的流程圖。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述多個可用控件包括開始控件、選擇控件和保存控件;其中,
所述開始控件,用于進(jìn)行待爬取網(wǎng)站的URL地址的輸入;
所述選擇控件,用于粗粒度選取待爬取區(qū)域;
所述保存控件,用于細(xì)粒度的對待爬取信息的爬蟲規(guī)則進(jìn)行配置。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述流程圖中的節(jié)點所對應(yīng)的控件,生成針對目標(biāo)網(wǎng)站的爬取配置規(guī)則,包括:
獲取所述用戶對所述流程圖中各節(jié)點所對應(yīng)的控件的配置信息;
根據(jù)所述流程圖中各節(jié)點所對應(yīng)的控件的配置信息和節(jié)點順序,生成針對所述目標(biāo)網(wǎng)站的爬取配置規(guī)則。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取所述用戶對所述流程圖中各節(jié)點所對應(yīng)的控件的配置信息,包括:
提供配置界面;
基于所述配置界面,接收所述用戶對所述流程圖中各節(jié)點所對應(yīng)的控件的配置信息;其中,所述流程圖中的根節(jié)點所對應(yīng)的控件為所述開始控件,所述流程圖中的葉子節(jié)點所對應(yīng)的控件為所述保存控件。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,
當(dāng)所述流程圖中的根節(jié)點與葉子節(jié)點之間存在選擇控件節(jié)點時,確定所述選擇控件節(jié)點的父節(jié)點所對應(yīng)的第一網(wǎng)站資源信息;
將所述第一網(wǎng)站資源信息提供給所述用戶,以使所述用戶在所述第一網(wǎng)站資源信息上選擇待爬取區(qū)域;
在所述配置界面上顯示所述用戶選擇的所述待爬取區(qū)域所對應(yīng)的標(biāo)識規(guī)則,并根據(jù)所述用戶選擇的所述待爬取區(qū)域所對應(yīng)的標(biāo)識規(guī)則確定所述選擇控件節(jié)點的配置信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述多個可用控件還包括:用于刪除所述待爬取區(qū)域中的干擾因素的刪除控件;其中,
當(dāng)所述流程圖中的根節(jié)點與葉子節(jié)點之間存在刪除控件節(jié)點時,確定所述刪除控件節(jié)點的父節(jié)點所對應(yīng)的第二網(wǎng)站資源信息;
將所述第二網(wǎng)站資源信息提供給所述用戶,以使所述用戶在所述第二網(wǎng)站資源信息上選擇待刪除區(qū)域;
在所述配置界面上顯示所述用戶選擇的所述待刪除區(qū)域所對應(yīng)的標(biāo)識規(guī)則,并根據(jù)所述用戶選擇的所述待刪除區(qū)域所對應(yīng)的標(biāo)識規(guī)則確定所述刪除控件節(jié)點的配置信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山安全軟件有限公司,未經(jīng)北京金山安全軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910578458.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





