[發明專利]一種主題門戶網站爬蟲方法在審

申請號：	202110051839.8	申請日：	2021-01-15
公開（公告）號：	CN112749315A	公開（公告）日：	2021-05-04
發明（設計）人：	徐靜;韋婷婷;包先雨;黃大亮;徐天;趙清月;李妍	申請（專利權）人：	大連海關技術中心
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955
代理公司：	大連瑞博晟知識產權代理有限公司 21259	代理人：	孫麗
地址：	116000 遼***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種主題門戶網站爬蟲方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種主題門戶網站爬蟲方法，其特征在于：包括

網頁頁面鏈接分析和提取：根據主題網站設計正則表達式以識別出父頁和子頁鏈接，并且判斷該頁面是否屬于主題網站內的鏈接，只對主題網站內的鏈接進行處理，若識別出為父頁，則對父頁中的子頁鏈接進行提取，若識別出為子頁，則對子頁的正文內容進行提取；

網頁內容提取：對子頁鏈接下的正文內容進行提取，并將提取的正文內容存儲到一個靜態類中，成功抽取后即退出；

數據持久化存儲：用于存儲從每個子頁鏈接中提取的正文內容；

增量抓取：針對主題網站中的更新內容進行抓取，每次增量更新時，重新提取主題網站首頁的鏈接，只對新鏈接進行處理。

2.根據權利要求1所述的一種主題門戶網站爬蟲方法，其特征在于：所述網頁內容提取中，對于網頁下找到的所有正文格式，先找到一種格式，從所有頁面提取到正文，再存入數據庫中，此時不同格式的正文字段在數據庫中即為空，再反向從空正文字符的鏈接中查看其格式，編寫對應的提取代碼，再循環多次，即可找到所有的格式，從而設計對應的xpath語法，將所有xpath格式保存在一個list中，通過遍歷list進行正文內容提取，成功提取后即退出循環，并將該提取過程定義為一個靜態類。

3.根據權利要求1所述的一種主題門戶網站爬蟲方法，其特征在于：所述增量抓取中，通過輸入種子鏈接，判斷該種子鏈接是否為父頁，如果是父頁，則從父頁中提取新的子頁鏈接放入待抓取隊列中，程序結束，之后進行網頁內容抓取；如果不是父頁，則是子頁，此時判斷子頁鏈接的正文內容是否已經提取，如果已經提取，則結束程序，如果沒有提取，則將鏈接放入待抓取隊列中，對鏈接下的正文內容進行提取，提取后的內容進行數據持久化存儲，程序結束。

4.根據權利要求1所述的一種主題門戶網站爬蟲方法，其特征在于：所述增量抓取中，通過布隆過濾器來篩選判斷增量更新的網址鏈接。

5.根據權利要求4所述的一種主題門戶網站爬蟲方法，其特征在于：所述布隆過濾器中采用BitSet函數和hash函數配合使用對增量更新的網址鏈接進行判斷，其中將BitSet函數定義為靜態私有變量。

6.根據權利要求5所述的一種主題門戶網站爬蟲方法，其特征在于：所述BitSet函數中，將Path作為BitSet加載保存的路徑；getBitSet方法從Path路徑中加載并反序列化得到BitSet對象，若沒有可以加載的對象，則返回false，重新生成新的實例，最后直接調用對象流將其序列化保存；hash函數針對網頁鏈接中的每個字符都進行計算，對每個結果進行相加后，再與BitSet的長度進行取模，可以使hash分布更均勻。

7.根據權利要求6所述的一種主題門戶網站爬蟲方法，其特征在于：所述hash函數先選擇一個種子，種子選擇為質數，布隆過濾器中一共設置8個hash值，傳入8個不同的hash種子，就能獲取不同的hash值；當一個鏈接傳入，調用布隆過濾器的add(String value)方法，先判斷value值是否為空，非空則再調用addValue(String value)方法，并將addValue定義為靜態變量。

8.根據權利要求4所述的一種主題門戶網站爬蟲方法，其特征在于：所述布隆過濾器中采用contains方法判斷是否存在相同的網址鏈接，傳入一個鏈接時，調用所有的hash方法進行判斷，如果有一個hash算法的值不為false，則可以確定此url沒有重復，再進行內容的提取。

9.根據權利要求1所述的一種主題門戶網站爬蟲方法，其特征在于：所述數據持久化存儲中，網頁信息抽取結束后，根據需要，可以持久化保存在數據庫中，也可以保存成不同的格式，利用page.putFiled(String key,Object field)方法來對提取到的正文內容進行存儲。

10.根據權利要求1所述的一種主題門戶網站爬蟲方法，其特征在于：所述網頁頁面鏈接分析和提取的正則表達式中，用來判斷提取的鏈接是父頁還是子頁的正則表達式為：http://www\\.(.*\\.)？agri\\.cn/.*(htm)$；用來提取包含所有父頁和子頁的正則表達式為：http://www\\.(.*\\.)？agri\\.cn/.+，并可以根據此正則表達式判斷是否屬于主題網站內的鏈接。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于大連海關技術中心，未經大連海關技術中心許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110051839.8/1.html，轉載請聲明來源鉆瓜專利網。