[發明專利]一種主題門戶網站爬蟲方法在審
| 申請號: | 202110051839.8 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112749315A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 徐靜;韋婷婷;包先雨;黃大亮;徐天;趙清月;李妍 | 申請(專利權)人: | 大連海關技術中心 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 大連瑞博晟知識產權代理有限公司 21259 | 代理人: | 孫麗 |
| 地址: | 116000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 門戶 網站 爬蟲 方法 | ||
1.一種主題門戶網站爬蟲方法,其特征在于:包括
網頁頁面鏈接分析和提取:根據主題網站設計正則表達式以識別出父頁和子頁鏈接,并且判斷該頁面是否屬于主題網站內的鏈接,只對主題網站內的鏈接進行處理,若識別出為父頁,則對父頁中的子頁鏈接進行提取,若識別出為子頁,則對子頁的正文內容進行提取;
網頁內容提取:對子頁鏈接下的正文內容進行提取,并將提取的正文內容存儲到一個靜態類中,成功抽取后即退出;
數據持久化存儲:用于存儲從每個子頁鏈接中提取的正文內容;
增量抓取:針對主題網站中的更新內容進行抓取,每次增量更新時,重新提取主題網站首頁的鏈接,只對新鏈接進行處理。
2.根據權利要求1所述的一種主題門戶網站爬蟲方法,其特征在于:所述網頁內容提取中,對于網頁下找到的所有正文格式,先找到一種格式,從所有頁面提取到正文,再存入數據庫中,此時不同格式的正文字段在數據庫中即為空,再反向從空正文字符的鏈接中查看其格式,編寫對應的提取代碼,再循環多次,即可找到所有的格式,從而設計對應的xpath語法,將所有xpath格式保存在一個list中,通過遍歷list進行正文內容提取,成功提取后即退出循環,并將該提取過程定義為一個靜態類。
3.根據權利要求1所述的一種主題門戶網站爬蟲方法,其特征在于:所述增量抓取中,通過輸入種子鏈接,判斷該種子鏈接是否為父頁,如果是父頁,則從父頁中提取新的子頁鏈接放入待抓取隊列中,程序結束,之后進行網頁內容抓取;如果不是父頁,則是子頁,此時判斷子頁鏈接的正文內容是否已經提取,如果已經提取,則結束程序,如果沒有提取,則將鏈接放入待抓取隊列中,對鏈接下的正文內容進行提取,提取后的內容進行數據持久化存儲,程序結束。
4.根據權利要求1所述的一種主題門戶網站爬蟲方法,其特征在于:所述增量抓取中,通過布隆過濾器來篩選判斷增量更新的網址鏈接。
5.根據權利要求4所述的一種主題門戶網站爬蟲方法,其特征在于:所述布隆過濾器中采用BitSet函數和hash函數配合使用對增量更新的網址鏈接進行判斷,其中將BitSet函數定義為靜態私有變量。
6.根據權利要求5所述的一種主題門戶網站爬蟲方法,其特征在于:所述BitSet函數中,將Path作為BitSet加載保存的路徑;getBitSet方法從Path路徑中加載并反序列化得到BitSet對象,若沒有可以加載的對象,則返回false,重新生成新的實例,最后直接調用對象流將其序列化保存;hash函數針對網頁鏈接中的每個字符都進行計算,對每個結果進行相加后,再與BitSet的長度進行取模,可以使hash分布更均勻。
7.根據權利要求6所述的一種主題門戶網站爬蟲方法,其特征在于:所述hash函數先選擇一個種子,種子選擇為質數,布隆過濾器中一共設置8個hash值,傳入8個不同的hash種子,就能獲取不同的hash值;當一個鏈接傳入,調用布隆過濾器的add(String value)方法,先判斷value值是否為空,非空則再調用addValue(String value)方法,并將addValue定義為靜態變量。
8.根據權利要求4所述的一種主題門戶網站爬蟲方法,其特征在于:所述布隆過濾器中采用contains方法判斷是否存在相同的網址鏈接,傳入一個鏈接時,調用所有的hash方法進行判斷,如果有一個hash算法的值不為false,則可以確定此url沒有重復,再進行內容的提取。
9.根據權利要求1所述的一種主題門戶網站爬蟲方法,其特征在于:所述數據持久化存儲中,網頁信息抽取結束后,根據需要,可以持久化保存在數據庫中,也可以保存成不同的格式,利用page.putFiled(String key,Object field)方法來對提取到的正文內容進行存儲。
10.根據權利要求1所述的一種主題門戶網站爬蟲方法,其特征在于:所述網頁頁面鏈接分析和提取的正則表達式中,用來判斷提取的鏈接是父頁還是子頁的正則表達式為:http://www\\.(.*\\.)?agri\\.cn/.*(htm)$;用來提取包含所有父頁和子頁的正則表達式為:http://www\\.(.*\\.)?agri\\.cn/.+,并可以根據此正則表達式判斷是否屬于主題網站內的鏈接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海關技術中心,未經大連海關技術中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110051839.8/1.html,轉載請聲明來源鉆瓜專利網。





