[發明專利]用于抓取網絡商城中網頁的爬蟲算法無效
| 申請號: | 201210571819.4 | 申請日: | 2012-12-26 |
| 公開(公告)號: | CN102982184A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 陳志德 | 申請(專利權)人: | 福建師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350007 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 抓取 網絡商城 網頁 爬蟲 算法 | ||
1.一種用于抓取網絡商城中網頁的爬蟲算法,其特征在于:包括以下步驟:
步驟1:設置抓取的寬度、深度以及總數,所述寬度表示不相關頁面鏈接允許訪問的數目,所述深度表示還可以沿著鏈接繼續往前訪問的深度,所述總數表示訪問網頁總數上限值S;輸入初始鏈接;
步驟2:建立url隊列,所述url隊列用于存儲要爬取的初始鏈接,將url種子集添加到所述url隊列中;
步驟3:若訪問頁面數小于訪問網頁總數上限值S,或者url隊列的長度不為零,即url隊列不為空,則根據所述初始鏈接下載對應的頁面,否則結束;
步驟4:抽取被新爬取到的鏈接到list隊列中,并計算頁面與主題的相關度,然后保存下載到的頁面;所述list隊列用于存儲爬取到的鏈接;
步驟5:判斷頁面的深度,若頁面的深度大于零,則執行步驟6,否則返回步驟3;
步驟6:判斷頁面是否與主題相關,若與主題相關,則增加所述頁面前向鏈接的鏈接值,否則降低所述頁面前向鏈接的鏈接值;
步驟7:判斷url是否在list隊列中,若在list隊列中,則執行步驟8,否則返回到步驟3;
步驟8:判斷url是否在url隊列中,若在url隊列中,比較url隊列的相關系數和list隊列的相關系數的大小,兩者中較大的取代url隊列中的相關系數;否則按照相關系數的大小插入到url隊列中;
步驟9:若當前頁面相關,則深度為depth(page),否則深度為depth(page)-1,depth(page)指當前頁面的深度;
步驟10:從list隊列中取出下一條url,然后從步驟7開始執行;
步驟11:算法結束,輸出主題相關網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建師范大學,未經福建師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210571819.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機架固定板
- 下一篇:一種雙彎單矯機組的導軌組件





