[發(fā)明專利]一種爬蟲系統(tǒng)及其方法有效
| 申請?zhí)枺?/td> | 201410259561.3 | 申請日: | 2014-06-12 |
| 公開(公告)號: | CN104008190B | 公開(公告)日: | 2017-04-19 |
| 發(fā)明(設(shè)計(jì))人: | 于權(quán) | 申請(專利權(quán))人: | 江蘇敏行信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210012 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 爬蟲 系統(tǒng) 及其 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,具體涉及其一種爬蟲系統(tǒng)及其方法。
背景技術(shù)
目前通過http協(xié)議的last-modified來判斷一個(gè)網(wǎng)站的網(wǎng)頁是否更新,由此可以控制爬蟲是否繼續(xù)爬取網(wǎng)頁內(nèi)容。但對于動態(tài)網(wǎng)站或者不規(guī)范的網(wǎng)站,該值一般為訪問時(shí)間,所以無法通過此值來控制爬蟲是否繼續(xù)爬取網(wǎng)頁內(nèi)容,這樣就極大地限制了爬蟲的使用效率。
發(fā)明內(nèi)容
本發(fā)明的目的提供一種爬蟲系統(tǒng)及其方法,包括帶有用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)的爬蟲節(jié)點(diǎn),爬蟲節(jié)點(diǎn)同互聯(lián)網(wǎng)相連接,所述的互聯(lián)網(wǎng)中包含有網(wǎng)站服務(wù)器,所述的網(wǎng)站服務(wù)器中包含有帶有頻道的網(wǎng)站,所述的爬蟲節(jié)點(diǎn)中還包括有瀏覽器、用于采集結(jié)果的數(shù)據(jù)庫和頻道庫,所述的網(wǎng)站服務(wù)器中還包含有頻道列表信息。這樣的結(jié)構(gòu)結(jié)合其方法避免了現(xiàn)有技術(shù)中無法通過訪問時(shí)間的值來控制爬蟲是否繼續(xù)爬取網(wǎng)頁內(nèi)容這樣就極大地限制了爬蟲的使用效率的缺陷。
為了克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供了一種爬蟲系統(tǒng)及其方法的解決方案,具體如下:
一種爬蟲系統(tǒng),包括帶有用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1的爬蟲節(jié)點(diǎn)2,爬蟲節(jié)點(diǎn)2同互聯(lián)網(wǎng)3相連接,所述的互聯(lián)網(wǎng)3中包含有網(wǎng)站服務(wù)器4,所述的網(wǎng)站服務(wù)器4中包含有帶有頻道的網(wǎng)站,所述的爬蟲節(jié)點(diǎn)2中還包括有瀏覽器7、用于采集結(jié)果的數(shù)據(jù)庫6和頻道庫5,所述的網(wǎng)站服務(wù)器4中還包含有頻道列表信息。
所述的頻道庫5包含有每個(gè)頻道的起始URL及該頻道信息的最近爬取時(shí)頻道信息的最后發(fā)布日期。
所述的頻道列表信息包括有發(fā)布日期條目。
所述的爬蟲系統(tǒng)的方法,步驟如下:
步驟1:啟動爬蟲節(jié)點(diǎn)2中的用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1對每個(gè)網(wǎng)站服務(wù)器4中的網(wǎng)站及頻道進(jìn)行統(tǒng)一編碼,每個(gè)網(wǎng)站的每個(gè)頻道都存在唯一標(biāo)識;
步驟2:用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1再從頻道庫中提取一個(gè)頻道的起始URL及該頻道信息的最近爬取時(shí)頻道信息的最后發(fā)布日期,并將該頻道信息的最近爬取時(shí)頻道信息的最后發(fā)布日期減去一天;
步驟3:用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1對該頻道所在的網(wǎng)站服務(wù)器4發(fā)起Http請求;
步驟4:該頻道所在的網(wǎng)站服務(wù)器4接收到該Http請求后,把該頻道列表信息發(fā)送回爬蟲節(jié)點(diǎn)2,用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1就取得該頻道列表信息;
步驟5:用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1對該頻道列表信息進(jìn)行分析,如果對應(yīng)的發(fā)布日期條目中存在發(fā)布日期,則直接使用該頻道列表信息的每條信息的發(fā)布日期與該頻道的減去一天后的最后發(fā)布日期比較,如果晚于最后發(fā)布日期,則將該URL信息加入到任務(wù)信息中;
步驟6:如果本頁列表中最后一條信息不早于最后發(fā)布日期,用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1則對該頻道所在的網(wǎng)站服務(wù)器4發(fā)起針對下一頁的http請求,返回步驟4中執(zhí)行;
步驟7:如果本頁列表中最后一條信息早于該頻道的減去一天后的最后發(fā)布日期,則該爬蟲任務(wù)結(jié)束;
步驟8:如果該頻道列表信息不存在發(fā)布日期這樣能夠絕對定位的標(biāo)識,:用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1則分析確定該頻道列表信息的條目數(shù)N,以及該頻道列表信息中的每個(gè)條目的標(biāo)題信息,以此形成標(biāo)題集合{title0,title1, title2…titltN},其中title表示標(biāo)題信息,然后從用于采集結(jié)果的數(shù)據(jù)庫6中按照采集時(shí)間順序查找title0及后續(xù)N條數(shù)據(jù)標(biāo)題的數(shù)據(jù)庫集合{title0db,title1 db, title2 db …titltN db},如果標(biāo)題集合和數(shù)據(jù)庫集合這兩個(gè)集合的散列值相同,則結(jié)束爬取任務(wù);如果標(biāo)題集合和數(shù)據(jù)庫集合這兩個(gè)集合的散列值不同,則用于動態(tài)網(wǎng)頁的爬蟲系統(tǒng)1則對該頻道所在的網(wǎng)站服務(wù)器4發(fā)起針對下一頁的http請求,返回步驟4中執(zhí)行。
應(yīng)用本發(fā)明上述方案,通過控制爬蟲是否繼續(xù)爬取網(wǎng)頁內(nèi)容,這樣就極大地提高了爬蟲的使用效率。
附圖說明
圖1為本發(fā)明的爬蟲系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
本發(fā)明爬蟲關(guān)心的主題內(nèi)容為列表及列表對應(yīng)的具體信息。在爬取時(shí),主要通過列表作為爬取的入口,通過下一頁來獲取更多信息。因此,通過列表信息可以控制爬蟲的爬取任務(wù)。對于動態(tài)網(wǎng)頁,信息的更新主要體現(xiàn)在列表信息的變化。為了更好的閱讀體驗(yàn),信息一般以時(shí)間倒序的方式來展現(xiàn)。隨著信息的更新,原本展現(xiàn)在第一頁的信息會變?yōu)樵诘诙撜宫F(xiàn)。
下面結(jié)合附圖對發(fā)明內(nèi)容作進(jìn)一步說明:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇敏行信息技術(shù)有限公司,未經(jīng)江蘇敏行信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410259561.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





