[發明專利]一種基于探測網頁更新周期的抓取方法有效
| 申請號: | 201310007246.7 | 申請日: | 2013-01-08 |
| 公開(公告)號: | CN103020313A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 王麗華;牟宏磊;王寶會;蒙洋;賈佳;李明亮;楊磊 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 探測 網頁 更新 周期 抓取 方法 | ||
1.一種基于探測網頁更新周期的抓取方法,其特征在于,該方法包括如下步驟:
步驟(1)、頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網頁頁面或者依據提供的頁面源信息進行設置;
步驟(2)、設置定時探測抓取周期,主要依據指定時間進行周期設置,并且周期性的獲取網頁信息;
步驟(3)、將獲取的網頁信息進行規則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行;
步驟(4)、通過步驟(3)設置好的規則,進行下一步抓取或者進行頁面本地存儲。
2.根據權利要求1所述的一種基于探測網頁更新周期的抓取方法,其特征在于:所述步驟(1)中頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網頁頁面或者依據提供的頁面源信息進行設置,其步驟為:
步驟1.1:通過指定的頁面進行獲取頁面url獲取,并且建立頁面歷史信息列表;
步驟1.2:對于不存在歷史信息列表中的頁面采用直接獲取(GET)的方式進行,對于存在歷史信息列表中的頁面采用檢測(CHK)方式進行;如果是指定的目標頁面,則直接設置其方式為檢測(CHK)方式進行。
3.根據權利要求1所述的一種基于探測網頁更新周期的抓取方法,其特征在于:所述步驟(2)中設置定時探測抓取周期,主要依據指定時間進行周期設置,并且周期性的獲取網頁信息,其步驟為:
步驟2.1:頁面設置依據配置的方式進行設置探測抓取周期,采用系統時鐘的方式進行周期性的抓取觸發。
4.根據權利要求1所述的一種基于探測網頁更新周期的抓取方法,其特征在于:所述步驟(3)中將獲取的網頁信息進行規則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行,其步驟為:
步驟3.1:通過周期性獲取到的頁面信息進行規則設置,獲取目標頁面鏈接url;
步驟3.2:獲取目標鏈接url的服務器ip地址;
步驟3.3:設置抓取頁面的UA為匿名或者實名;
步驟3.4:獲取頁面更新時間,如果頁面與歷史信息的頁面更新時間有所不同,則制定頁面獲取方式為獲取(GET),如果頁面與歷史信息的頁面更新時間相同,則指定頁面獲取方式為檢測(CHK)。
5.根據權利要求1至4任一項所述的一種基于探測網頁更新周期的抓取方法,其特征在于:所述步驟(4)中通過步驟(3)設置好的規則,進行下一步抓取或者進行頁面本地存儲,其步驟為:
步驟4.1:將所述獲取的網頁信息進行組合拼裝,如果是更新時間有所變化的頁面則創建頁面抓取線程,進行下一次頁面抓取,如果更新時間沒有變化,則將頁面信息進行本地保存,將頁面信息進行記錄,存儲為歷史信息為下次抓取提供抓取依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310007246.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種郵件的回復方法、系統以及裝置
- 下一篇:陀螺儀傳感器校準裝置及校準方法





