[發明專利]通用互聯網數據采集方法在審
| 申請號: | 201710433582.6 | 申請日: | 2017-06-09 |
| 公開(公告)號: | CN107239558A | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 張鵬 | 申請(專利權)人: | 成都布林特信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司11340 | 代理人: | 楊春 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 互聯網 數據 采集 方法 | ||
技術領域
本發明涉及數據檢索,特別涉及一種通用互聯網數據采集方法。
背景技術
隨著Web技術的不斷發展,網絡信息資源正以幾何速度的方式增長。如何從互聯網海量信息中快速檢索出與用戶相關的有用數據已成為當前急需解決的問題。搜索引擎正是在信息檢索技術的基礎上發展起來的。搜索引擎幫助本發明更好的表達和存儲現實世界中的本質信息,而且通過對搜索引擎中的聯接信息進行分析,可作為一種挖掘隱藏信息的有用工具。現有搜索引擎單純的依賴有限搜索詞去表達用戶需求,存在這表達不完整的問題。即使是同樣的搜索詞,不同的用戶所期望的結果可能也是不同的。例如微博系統,如果考慮微博以及相關交互對象的關系,它可以抽象為一個異構網絡,其中包含了微博、信息、標簽以及用戶等節點。微博和微博之間存在著關注和粉絲關系,微博和信息之間存在著發表和轉發關系,微博和標簽之間是一個包含關系,而用戶和微博之間存在著擁有關系。現有的搜索工具并未考慮上述多維對象形成的復雜環境進行數據挖掘。
發明內容
為解決上述現有技術所存在的問題,本發明提出了一種通用互聯網數據采集方法,包括:
步驟1.事務從事務隊列中獲取一個非空采集事務對象;如果獲取到空事務對象,則執行事務調度;
步驟2.判斷采集事務的深度是否超過最大的深度;事務從當前采集事務對象中獲取其當前事務對象所在的采集深度;如采集深度未超過系統配置的站點采集深度,則事務繼續步驟3;
步驟3.判斷采集事務的類型;如果是網頁采集事務,則執行步驟4,如果不是網頁采集事務,則執行步驟5;
步驟4.判斷是否是新網頁還是未完成的網頁鏈接;如果此采集事務訪問地址不在歷史抓取庫中,則按新發現的網頁進行采集即步驟7;如果此采集事務在歷史抓取庫中,從歷史抓取庫中獲取此網頁地址的上次采集信息,即訪問地址、訪問時間、頁面大小、更新頻率、根域名;計算上次訪問時間與本次訪問當前時間的間隔時間是否已經超過更新頻率,如果已經超過,則比較當前網頁地址的頁面內容大小與上一次頁面內容大小,如果相等,則不進行采集,如果不相等,則繼續步驟6;
步驟5.如果是媒體或文件鏈接,則執行相應的采集文檔處理;如果是非法鏈接,則記錄此異常鏈接;
步驟6.獲取此網頁鏈接頁面源碼,更新歷史訪問庫中此網頁地址的采集信息,執行步驟8;
步驟7.采集新任務網頁,獲取此網頁鏈接頁面的源碼,在歷史訪問庫中增加此網頁地址的訪問記錄;
步驟8.執行網頁清洗抽取,該網頁清洗抽取步驟用于從網頁源碼中提取指定的特征信息,清除網頁源碼中的無用信息或噪聲數據,然后再從清洗好數據中提取出需要的信息。
本發明相比現有技術,具有以下優點:
本發明提出了一種通用互聯網數據采集方法,利用事務控制策略進行高效數據采集,針對多維對象之間的耦合關系進行數據挖掘。
附圖說明
圖1是根據本發明實施例的通用互聯網數據采集方法的流程圖。
具體實施方式
下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳細描述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發明的范圍僅由權利要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節以便提供對本發明的透徹理解。出于示例的目的而提供這些細節,并且無這些具體細節中的一些或者所有細節也可以根據權利要求書實現本發明。
本發明的一方面提供了一種通用互聯網數據采集方法。圖1是根據本發明實施例的通用互聯網數據采集方法流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都布林特信息技術有限公司,未經成都布林特信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710433582.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





