[發明專利]一種大數據網絡爬蟲分頁選擇方法和系統有效
| 申請號: | 201710236260.2 | 申請日: | 2017-04-12 |
| 公開(公告)號: | CN107066576B | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 張志成;王純斌;覃進學;劉佳 | 申請(專利權)人: | 成都四方偉業軟件股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 連接地址 爬蟲 地址匹配 解析模塊 匹配模塊 網絡爬蟲 網頁數據 校驗 大數據 分頁 解析 匹配 網頁 標簽信息 存儲模塊 分頁標簽 分頁信息 獲取模塊 腳本內容 配置模塊 匹配成功 數據過程 腳本 按鈕 頁面 標簽 中斷 成功 | ||
1.一種大數據網絡爬蟲分頁選擇方法,其特征在于,它包括以下步驟:
S0:配置,爬蟲腳本中的分頁配置;
所述的配置步驟S0,包括以下子步驟:
第一配置,配置分頁組的定位符,分頁組是一組選定標簽A的集合,其業務含義為一系列頁數標簽,即A標簽;
第二配置,配置頁面按鈕的匹配符,該匹配符是用于做智能分頁的匹配符;
第三配置,配置標簽的屬性元素,該屬性元素為分頁組中所有按鈕的A標簽的Href屬性;
第四配置,配置標題元素,該標題元素為分頁組中所有按鈕的A標簽的title的屬性值;
第五配置,配置文本元素,該文本元素為分頁組中所有按鈕的A標簽的txt的屬性值;
S1:第一解析,解析爬蟲腳本;
S2:第一匹配,獲取匹配符,對爬蟲腳本內容中的標簽信息進行匹配;
S3:存儲,將匹配成功的標簽的特征值存入URL隊列中;
S4:獲取及校驗,獲取URL隊列中的URL連接地址,校驗URL連接地址;
S5:第二匹配,獲取校驗后的URL連接地址,進行地址匹配;
S6:第二解析,解析地址匹配成功的URL地址的網頁,獲取分頁信息。
2.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S6之后,還包括一個返回步驟S7,所述的返回步驟S7,在獲取分頁信息后,返回到步驟S2中,從而實現循環爬取。
3.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:所述的URL隊列為內存隊列。
4.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:所述的URL隊列為文件隊列。
5.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S1中,包括以下子步驟:
S11:讀取爬蟲腳本文件并校驗,然后把爬蟲腳本文件中的規則字符串轉換為JsonArray;
S12:將JsonArray轉化為腳本JAVA對象;
S13:解析腳本JAVA對象中的爬蟲規則,再將解析結果設置到腳本JAVA對象中。
6.根據權利要求5所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S13中,使用遞歸解析來獲取腳本內容對象中爬蟲規則中的字段及字段的信息。
7.根據權利要求6所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:所述字段的信息包括name信息、css信息、save信息、click信息、regex信息和type信息。
8.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S2中,獲取字段中的匹配符,逐一對腳本內容對象中的標簽的文本元素和標題元素進行匹配。
9.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S3中,所述的特征值為Href值。
10.根據權利要求9所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S3中,在步驟S2中匹配成功后,將相應標簽的Href值存入待爬取的URL隊列中等待爬取。
11.根據權利要求1所述的一種大數據網絡爬蟲分頁選擇方法,其特征在于:在步驟S5中,對URL地址進行過濾匹配,通過模糊匹配變量來實現地址匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司,未經成都四方偉業軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710236260.2/1.html,轉載請聲明來源鉆瓜專利網。





