[發明專利]基于主動推技術的互聯網信息采集方法和裝置無效
| 申請號: | 201110428751.X | 申請日: | 2011-12-19 |
| 公開(公告)號: | CN102521379A | 公開(公告)日: | 2012-06-27 |
| 發明(設計)人: | 劉功申;胡佩華;許陽;王士林;李建華;李生紅 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海思微知識產權代理事務所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主動 技術 互聯網 信息 采集 方法 裝置 | ||
技術領域
本發明涉及信息采集領域,尤其涉及一種基于主動推技術的互聯網信息采集方法和裝置。
背景技術
隨著互聯網技術的快速發展,網絡上的信息資源日益強大并呈快速增長的趨勢,越來越多的人喜歡從網絡上獲取信息。傳統的搜索引擎信息采集方法都是基于爬蟲(Spider,Crawl等)程序實現的,在一定的時期內取得了一定的成績。但是隨著網絡服務的日益更新,特別是Web2.0,Web3.0,Twitter,Facebook,微博等新型網絡服務的推出,傳統的信息采集方法已經不能滿足時代的需求。
經過對現有技術文獻的檢索發現,中國專利文獻號CN100501746C的專利,公告日期為2009年6月17日,記載了一種“網頁抓取方法和網頁抓取服務器”,該技術包括:首先接收網頁請求;其次判斷所請求網頁是否抓取過;如果沒抓取過,則直接抓取;如果抓取過,則根據兩次時間間隔是否達到一定閾值來決定是否重新嘗試抓取,達到了則去抓取;最后,根據網頁是否更新,決定是否重新抓取。該發明專利技術仍然以傳統搜索引擎采集方法為主,主要存在以下:
1、浪費網絡資源
傳統的信息采集方法需要重復試探或重復采集網絡上的信息,以判斷網絡上的信息是否已經被更新。盡管現在也有技術能夠通過時間戳來判斷是否更新,以實現查新下載,但大量的網絡服務根本不支持這種基于時間戳判斷的技術,因此還只能采取復試探或重復采集網絡上的信息,造成了網絡資源的浪費。
2、實效性差
在面對數量龐大的網絡信息時,傳統采集技術只能采用輪詢的方法訪問某個特定采集點,因此,經常需要至少1周以上的時間間隔才能輪詢到某些網站的最新信息,因此時效性較差。
3、采集信息不全面
由于動態網頁、用戶登錄等訪問權限限制,傳統的信息采集技術很難解決信息采集的全面性,因此大量的網絡信息無法被采集到。
4、動態數據無法采集
對于論壇、微博、Twitter等新型網絡服務,它們的回復數、瀏覽數等數據可能瞬息變化,因此通過傳統的網絡采集方法根本不可能采集到這些信息變化過程。
發明內容
為解決現有技術網絡信息采集不及時以及采集不全面的問題,本發明實施例提供了一種基于主動推技術的互聯網信息采集方法和裝置。
一種基于主動推技術的互聯網信息采集方法,包括:
數據采集方和數據被采集方協商數據采集協議;
所述數據被采集方按照所述數據采集協議把所述數據被采集方的特定數據主動推送到所述數據采集方;
所述數據采集方接收所述特定數據,并且將所述特定數據進行存儲;
其中所述數據采集協議是指所述數據采集方和數據被采集方協商制定的數據提交規則,所述數據采集方是指采集網絡信息數據的一方,所述數據被采集方是指提供網絡信息數據的一方,所述特定數據是指在兩次采集間隔內在數據被采集方上更新過的數據。
一種基于主動推技術的互聯網信息采集裝置,包括數據采集方和數據被采集方,其中:
所述數據被采集方,用于和所述數據采集方協商數據采集協議,并按照所述數據采集協議把所述數據被采集方的特定數據主動推送到所述數據采集方;
所述數據采集方,用于和所述數據被采集方協商所述數據采集協議,并接收所述數據被采集方推送的特定數據,并且將所述特定數據進行存儲;
其中所述數據采集協議是指所述數據采集方和數據被采集方協商制定的數據提交規則,所述數據采集方是指采集網絡信息數據的一方,所述數據被采集方是指提供網絡信息數據的一方,所述特定數據是指在兩次采集間隔內在數據被采集方上更新過的數據。
本發明實施例所提供的基于主動推技術的互聯網信息采集方法和裝置中,數據被采集方可以主動將特定數據按照協商的數據采集協議推送給數據采集方,實現一個基于主動推技術的互聯網信息采集新方法,該方法可以實現在采集網絡信息時不浪費帶寬資源,并且信息采集比較全面,及時,同時也能采集到特殊數據。
應用本發明實施例所提供網絡信息的采集方法裝置,數據被采集方可以主動將特定數據按照協商的數據采集協議推送給數據采集方,實現一個基于主動推技術的互聯網信息采集新方法,該方法和裝置可以保證網絡信息采集的及時性和全面性,同時也能采集到特殊數據。
附圖說明
圖1是本發明實施例網絡信息的采集方法的第一流程示意圖;
圖2是本發明實施例網絡信息的采集方法的第二流程示意圖;
圖3是本發明實施例網絡信息的采集方法中數據交互示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110428751.X/2.html,轉載請聲明來源鉆瓜專利網。





