[發明專利]對獲取的網頁數據進行更新的系統及方法有效
申請號: | 201310362978.8 | 申請日: | 2013-08-19 |
公開(公告)號: | CN104424188B | 公開(公告)日: | 2018-07-20 |
發明(設計)人: | 葉亞明 | 申請(專利權)人: | 上海攜程商務有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 上海弼興律師事務所 31283 | 代理人: | 王衛彬 |
地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 獲取 網頁 數據 進行 更新 系統 方法 | ||
本發明公開了一種對獲取的網頁數據進行更新的系統及方法,方法包括:S1、利用網絡爬蟲從網頁中抓取目標數據;S2、將目標數據打包成目標壓縮文件,并對目標壓縮文件添加MD5標簽;S3、判斷數據庫服務器中是否存儲網頁數據及壓縮文件,若是,則執行步驟S4,若否,則執行步驟S7;S4、判斷網頁數據的壓縮文件與目標壓縮文件的MD5值是否相同,若是,則執行步驟S5,若否,則執行步驟S6;S5、刪除目標數據及目標壓縮文件;S6、將網頁數據及壓縮文件分別更新為目標數據及目標壓縮文件;S7、將目標數據及目標壓縮文件存儲至數據庫服務器中。本發明能夠判斷出網頁數據的更新,實現了對獲取到的網頁數據的及時更新。
技術領域
本發明涉及一種對獲取的網頁數據進行更新的系統及方法,特別是涉及一種能夠及時檢測出獲取的網頁數據的更新并進行相應更新處理的系統以及一種利用所述系統實現的對獲取的網頁數據進行更新的方法。
背景技術
在現階段的網絡技術飛速發展的情況下,大數據時代已經來臨,如何快速有效地拉取網站的數據信息成為亟待解決的問題。現在很多的網站出于信息保護的目的,在對網頁數據進行更新時,一般不會在更新數據中提供時間戳這種標識時間的信息數據。因此,現有技術中在抓取到網頁數據后,基本無法判斷網頁數據的更新時間,一旦無法判斷更新時間,就無法判斷抓取到的網頁數據中哪些是更新過的數據,哪些是沒有更新過的數據,從而導致無法第一時間獲取到網頁中最新更新的數據。
以在線旅游搜索平臺為例,由于無法判斷目標網站(例如各種酒店及訂票網站)的數據更新,導致很難在第一時間獲取到最新更新的機票、酒店及火車票等資源信息,而數據更新的實時性不高的話,會使得用戶在進行相關信息查詢時精準度變低,嚴重影響到用戶的使用體驗。
發明內容
本發明要解決的技術問題是為了克服現有技術中在線旅游搜索平臺等無法及時判斷網站的數據更新,導致很難在第一時間獲取到最新更新的機票、酒店及火車票等資源信息,使得用戶在進行相關信息查詢時精準度變低,嚴重影響到用戶的使用體驗的缺陷,提供一種能夠及時檢測出獲取的網頁數據的更新并進行相應更新處理的系統以及一種利用所述系統實現的對獲取的網頁數據進行更新的方法。
本發明是通過下述技術方案來解決上述技術問題的:
本發明提供了一種對獲取的網頁數據進行更新的方法,其特點在于,所述方法包括以下步驟:
S1、利用網絡爬蟲從一網頁中抓取帶有所述網頁ID(身份識別號碼)的目標數據;
S2、將所述目標數據打包成一目標壓縮文件,并對所述目標壓縮文件添加MD5(消息摘要算法第五版,計算機領域使用的一種散列函數)標簽;
S3、判斷一數據庫服務器中是否存儲帶有所述網頁ID的網頁數據及所述網頁數據的壓縮文件,若是,則執行步驟S4,若否,則執行步驟S7;
S4、判斷所述網頁數據的壓縮文件的MD5值與所述目標壓縮文件的MD5值是否相同,若是,則執行步驟S5,若否,則執行步驟S6;
S5、刪除所述目標數據及所述目標壓縮文件,然后結束流程;
S6、將所述網頁數據及所述網頁數據的壓縮文件分別更新為所述目標數據及所述目標壓縮文件,然后結束流程;
S7、將所述目標數據及所述目標壓縮文件存儲至所述數據庫服務器中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海攜程商務有限公司,未經上海攜程商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310362978.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置