[發明專利]對獲取的網頁數據進行更新的系統及方法有效
申請號: | 201310362978.8 | 申請日: | 2013-08-19 |
公開(公告)號: | CN104424188B | 公開(公告)日: | 2018-07-20 |
發明(設計)人: | 葉亞明 | 申請(專利權)人: | 上海攜程商務有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 上海弼興律師事務所 31283 | 代理人: | 王衛彬 |
地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 獲取 網頁 數據 進行 更新 系統 方法 | ||
1.一種對獲取的網頁數據進行更新的方法,其特征在于,所述方法包括以下步驟:
S1、利用網絡爬蟲從一網頁中抓取帶有所述網頁ID的目標數據;
S2、將所述目標數據打包成一目標壓縮文件,并對所述目標壓縮文件添加MD5標簽;
S3、判斷一數據庫服務器中是否存儲帶有所述網頁ID的網頁數據及所述網頁數據的壓縮文件,若是,則執行步驟S4,若否,則執行步驟S7;
S4、判斷所述網頁數據的壓縮文件的MD5值與所述目標壓縮文件的MD5值是否相同,若是,則執行步驟S5,若否,則執行步驟S6;
S5、刪除所述目標數據及所述目標壓縮文件,然后結束流程;
S6、將所述網頁數據及所述網頁數據的壓縮文件分別更新為所述目標數據及所述目標壓縮文件,然后結束流程;
S7、將所述目標數據及所述目標壓縮文件存儲至所述數據庫服務器中;
步驟S1中還將所述目標數據按照數據類型劃分為多個字段,并將所述多個字段分類為靜態信息數據和動態信息數據;
步驟S2中的所述目標壓縮文件包括分別帶有MD5標簽的所述靜態信息數據的壓縮文件及所述動態信息數據的壓縮文件。
2.如權利要求1所述的方法,其特征在于,步驟S1中的所述網絡爬蟲為聚焦爬蟲,所述聚焦爬蟲在抓取時通過設置過濾算法過濾所述網頁中與所述目標數據無關的鏈接。
3.如權利要求1或2所述的方法,其特征在于,每隔一時間段執行一次所述方法的流程。
4.一種對獲取的網頁數據進行更新的系統,其特征在于,所述系統包括一數據抓取模塊、一文件壓縮模塊、一第一判斷模塊、一第二判斷模塊以及一數據更新模塊;
所述數據抓取模塊用于利用網絡爬蟲從一網頁中抓取帶有所述網頁ID的目標數據;
所述文件壓縮模塊用于將所述目標數據打包成一目標壓縮文件,并對所述目標壓縮文件添加MD5標簽;
所述第一判斷模塊用于判斷一數據庫服務器中是否存儲帶有所述網頁ID的網頁數據及所述網頁數據的壓縮文件,若是,則啟用所述第二判斷模塊,若否,則調用所述數據更新模塊將所述目標數據及所述目標壓縮文件存儲至所述數據庫服務器中;
所述第二判斷模塊用于判斷所述網頁數據的壓縮文件的MD5值與所述目標壓縮文件的MD5值是否相同;
若是,則調用所述數據更新模塊刪除所述目標數據及所述目標壓縮文件;
若否,則調用所述數據更新模塊分別將所述網頁數據及所述網頁數據的壓縮文件更新為所述目標數據及所述目標壓縮文件;
所述數據抓取模塊還用于將所述目標數據按照數據類型劃分為多個字段,并將所述多個字段分類為靜態信息數據和動態信息數據;
所述目標壓縮文件包括分別帶有MD5標簽的所述靜態信息數據的壓縮文件及所述動態信息數據的壓縮文件。
5.如權利要求4所述的系統,其特征在于,所述網絡爬蟲為聚焦爬蟲,所述聚焦爬蟲還用于在抓取時通過設置過濾算法過濾所述網頁中與所述目標數據無關的鏈接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海攜程商務有限公司,未經上海攜程商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310362978.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置