[發明專利]一種爬蟲系統及其方法有效
| 申請號: | 201410259561.3 | 申請日: | 2014-06-12 |
| 公開(公告)號: | CN104008190B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 于權 | 申請(專利權)人: | 江蘇敏行信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210012 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 爬蟲 系統 及其 方法 | ||
1.一種爬蟲系統的方法,其特征在于,步驟如下:
步驟1:啟動爬蟲節點(2)中的用于動態網頁的爬蟲系統(1)進行數據采集并把數據采集結果存儲到用于采集結果的數據庫(6)中,并對每個網站服務器(4)中的網站及頻道進行統一編碼,每個網站的每個頻道都存在唯一標識;
步驟2:用于動態網頁的爬蟲系統(1)再從頻道庫中提取一個頻道的起始URL及該頻道信息的最近爬取時頻道信息的最后發布日期,并將該頻道信息的最近爬取時頻道信息的最后發布日期減去一天;
步驟3:用于動態網頁的爬蟲系統(1)對該頻道所在的網站服務器(4)發起Http請求;
步驟4:該頻道所在的網站服務器(4)接收到該Http請求后,把該頻道列表信息發送回爬蟲節點(2),用于動態網頁的爬蟲系統(1)就取得該頻道列表信息;
步驟5:用于動態網頁的爬蟲系統(1)對該頻道列表信息進行分析,如果對應的發布日期條目中存在發布日期,則直接使用該頻道列表信息的每條信息的發布日期與該頻道的減去一天后的最后發布日期比較,如果晚于最后發布日期,則將該URL信息加入到任務信息中;
步驟6:如果本頁列表中最后一條信息不早于最后發布日期,用于動態網頁的爬蟲系統(1)則對該頻道所在的網站服務器(4)發起針對下一頁的http請求,返回步驟4中執行;
步驟7:如果本頁列表中最后一條信息早于該頻道的減去一天后的最后發布日期,則該爬蟲任務結束;
步驟8:如果該頻道列表信息不存在發布日期這樣能夠絕對定位的標識,用于動態網頁的爬蟲系統(1)則分析確定該頻道列表信息的條目數N,以及該頻道列表信息中的每個條目的標題信息,以此形成標題集合{title0,title1, title2…titltN},其中title表示標題信息,然后從用于采集結果的數據庫(6)中按照采集時間順序查找title0及后續N條數據標題的數據庫集合{title0 db,title1 db, title2 db…titltN db},如果標題集合和數據庫集合這兩個集合的散列值相同,則結束爬取任務;如果標題集合和數據庫集合這兩個集合的散列值不同,則用于動態網頁的爬蟲系統(1)則對該頻道所在的網站服務器(4)發起針對下一頁的http請求,返回步驟4中執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇敏行信息技術有限公司,未經江蘇敏行信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410259561.3/1.html,轉載請聲明來源鉆瓜專利網。





