[發明專利]一種大數據網絡爬蟲分頁選擇方法和系統有效

申請號：	201710236260.2	申請日：	2017-04-12
公開（公告）號：	CN107066576B	公開（公告）日：	2019-11-12
發明（設計）人：	張志成;王純斌;覃進學;劉佳	申請（專利權）人：	成都四方偉業軟件股份有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955
代理公司：	成都金英專利代理事務所(普通合伙) 51218	代理人：	袁英
地址：	610041 四川省***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	連接地址爬蟲地址匹配解析模塊匹配模塊網絡爬蟲網頁數據校驗大數據分頁解析匹配網頁標簽信息存儲模塊分頁標簽分頁信息獲取模塊腳本內容配置模塊匹配成功數據過程腳本按鈕頁面標簽中斷成功
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種大數據網絡爬蟲分頁選擇方法，其特征在于，它包括以下步驟：

S0：配置，爬蟲腳本中的分頁配置；

所述的配置步驟S0，包括以下子步驟：

第一配置，配置分頁組的定位符，分頁組是一組選定標簽A的集合，其業務含義為一系列頁數標簽，即A標簽；

第二配置，配置頁面按鈕的匹配符，該匹配符是用于做智能分頁的匹配符；

第三配置，配置標簽的屬性元素，該屬性元素為分頁組中所有按鈕的A標簽的Href屬性；

第四配置，配置標題元素，該標題元素為分頁組中所有按鈕的A標簽的title的屬性值；

第五配置，配置文本元素，該文本元素為分頁組中所有按鈕的A標簽的txt的屬性值；

S1：第一解析，解析爬蟲腳本；

S2：第一匹配，獲取匹配符，對爬蟲腳本內容中的標簽信息進行匹配；

S3：存儲，將匹配成功的標簽的特征值存入URL隊列中；

S4：獲取及校驗，獲取URL隊列中的URL連接地址，校驗URL連接地址；

S5：第二匹配，獲取校驗后的URL連接地址，進行地址匹配；

S6：第二解析，解析地址匹配成功的URL地址的網頁，獲取分頁信息。

2.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S6之后，還包括一個返回步驟S7，所述的返回步驟S7，在獲取分頁信息后，返回到步驟S2中，從而實現循環爬取。

3.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：所述的URL隊列為內存隊列。

4.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：所述的URL隊列為文件隊列。

5.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S1中，包括以下子步驟：

S11：讀取爬蟲腳本文件并校驗，然后把爬蟲腳本文件中的規則字符串轉換為JsonArray；

S12：將JsonArray轉化為腳本JAVA對象；

S13：解析腳本JAVA對象中的爬蟲規則，再將解析結果設置到腳本JAVA對象中。

6.根據權利要求5所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S13中，使用遞歸解析來獲取腳本內容對象中爬蟲規則中的字段及字段的信息。

7.根據權利要求6所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：所述字段的信息包括name信息、css信息、save信息、click信息、regex信息和type信息。

8.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S2中，獲取字段中的匹配符，逐一對腳本內容對象中的標簽的文本元素和標題元素進行匹配。

9.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S3中，所述的特征值為Href值。

10.根據權利要求9所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S3中，在步驟S2中匹配成功后，將相應標簽的Href值存入待爬取的URL隊列中等待爬取。

11.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法，其特征在于：在步驟S5中，對URL地址進行過濾匹配，通過模糊匹配變量來實現地址匹配。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司，未經成都四方偉業軟件股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710236260.2/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】