[發明專利]一種能識別網頁信息自動采集的系統與方法有效
| 申請號: | 201310128305.6 | 申請日: | 2013-04-10 |
| 公開(公告)號: | CN103218431A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 張煒;金軍;吳楊梓;江巖 | 申請(專利權)人: | 金軍;江巖 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 網頁 信息 自動 采集 系統 方法 | ||
技術領域
本發明涉及網頁動態解析技術領域,具體屬于一種能識別網頁信息自動系統與方法。
背景技術
隨著互聯網的發展,出現了越來越多的互聯網網站,形式層出不窮,出現了新聞,博客,論壇,SNS,微博等。據CNNIC今年的最新統計,中國現已有網民4.85億,各類站點域名130余萬個。在互聯網信息爆炸的今天,搜索引擎已成為人們查找互聯網信息的最重要工具。
搜索引擎主要通過自動爬取網站信息,并對其進行預處理,分詞后,建立索引。輸入檢索詞后,搜索引擎能夠自動的為用戶查找出最相關的結果。搜索引擎經過十多年的發展,技術已相對成熟,且因為有成功的商業模式可以運用,因而吸引了眾多互聯網廠商進入,比較著名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。另外還有一些垂直領域的搜索引擎(如旅游,機票,比價等),進入的廠商不下千家。
搜索引擎的第一步也是最重要的一步是信息抓取,該步驟是搜索引擎的數據準備過程。具體過程如圖1所示。URL?DB存放所有待爬取的URL,URL調度模塊從URL?DB中選取出最重要的URL并將其放入URL下載隊列,頁面下載模塊對該隊列中的URL進行下載,下載完畢后,抽取模塊對下載的頁面代碼進行正文和URL抽取,抽取的正文發送給索引模塊進行分詞和建索引,URL放入URL?DB。
信息采集過程,是將別人網站的信息放到抓取到自己的信息庫的過程,會面臨著一些問題。
1、互聯網信息每刻都不停的增加,因而信息抓取是7*24小時不間斷過程。頻繁的抓取會對目標網站帶來巨大的訪問壓力,形成DDOS拒絕服務攻擊,導致無法為正常用戶提供訪問,這一點在中小型網站體現的尤為明顯,這些網站的硬件資源比較差,技術力量不強,而互聯網中90%以上是該類型的網站。例如:某著名搜索引擎由于頻繁抓取某網站而召到用戶投訴。
2、有些網站的信息具備隱私或版權,很多網頁中包含后臺數據庫、用戶穩私、密碼等信息。網站主辦者不希望這些信息被公之于眾或無償使用。大眾點評網曾就愛幫網抓取其網站上的點評信息,然后發布在自己網站上的行為進行起訴。
目前針對搜索引擎的網頁反采集采取的主流方法有robots協議約定,網站通過一個robots.txt協議來自主控制是否愿意自身內容被搜索引擎收錄,以及允許哪些搜索引擎收錄,并且指定自身可供收錄和禁止收錄的內容。同時,搜索引擎會自覺按照每個網站Robots協議給予自己的權限來進行抓取。該方法假定的搜索引擎爬取流程如下:
下載網站robots文件-按robots協議解析該文件--獲取待下載的URL-判斷該URL所在的訪問權限-根據判斷結果決定是否爬取。
Robots協議是君子協議,無任何約束性,爬取的主動性仍然完全控制在搜索引擎一方,完全可以不遵循該協議進行強行爬取。例如國內某著名搜索引擎在2012年8月份不遵循該協議爬取百度網站內容而遭到百度指責。
另外一種反采集方法主要通過使用動態技術構建欲禁止抓取的網頁,該方法通過使用客戶端腳本語言(如JS,VBScript,AJAX)動態生成網頁顯示信息,從而實現信息隱藏,使常規的搜索引擎難以獲取URL和正文內容。動態網頁構建技術只是增加了網頁解析和抽取的難度,并不能從根本上禁止網頁信息的采集和解析,目前,一些先進的搜索引擎已經可以做到模擬瀏覽器實現所有腳本代碼的解析,獲取所有信息的網絡URL,從而獲取存放于服務器的動態信息。
目前已經存在成熟的網頁動態解析技術,主要是通過解析網頁中所有的腳本代碼段,然后獲取網頁所有的動態信息(包括有用信息和垃圾信息)。實際實施過程是以開源的腳本代碼解析引擎(如Rhino,V8等)為內核,構建網頁腳本解析環境,然后抽取網頁中的腳本代碼段,將抽取的代碼段放入網頁腳本解析環境中執行解析,從而返回動態信息。解析過程如圖2所示,所以動態技術構建動態網頁的方法只是增加了網頁采集和解析的難度,并沒有從根本上杜絕搜索引擎的采集。
發明內容
本發明的目的是提供了一種能識別網頁信息自動采集的系統與方法,克服了現有技術的不足,該系統通過分析網站的歷史網頁訪問行為,建立自動采集分類器,識別出機器人的自動采集,通過自動機器人采集識別,實現網頁反抓取。
本發明采用的技術方案如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金軍;江巖,未經金軍;江巖許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310128305.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





