日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種能識別網頁信息自動采集的系統與方法有效

專利信息
申請號: 201310128305.6 申請日: 2013-04-10
公開(公告)號: CN103218431A 公開(公告)日: 2013-07-24
發明(設計)人: 張煒;金軍;吳楊梓;江巖 申請(專利權)人: 金軍;江巖
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 230000 安徽省合肥*** 國省代碼: 安徽;34
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 識別 網頁 信息 自動 采集 系統 方法
【說明書】:

技術領域

發明涉及網頁動態解析技術領域,具體屬于一種能識別網頁信息自動系統與方法。

背景技術

隨著互聯網的發展,出現了越來越多的互聯網網站,形式層出不窮,出現了新聞,博客,論壇,SNS,微博等。據CNNIC今年的最新統計,中國現已有網民4.85億,各類站點域名130余萬個。在互聯網信息爆炸的今天,搜索引擎已成為人們查找互聯網信息的最重要工具。

搜索引擎主要通過自動爬取網站信息,并對其進行預處理,分詞后,建立索引。輸入檢索詞后,搜索引擎能夠自動的為用戶查找出最相關的結果。搜索引擎經過十多年的發展,技術已相對成熟,且因為有成功的商業模式可以運用,因而吸引了眾多互聯網廠商進入,比較著名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。另外還有一些垂直領域的搜索引擎(如旅游,機票,比價等),進入的廠商不下千家。

搜索引擎的第一步也是最重要的一步是信息抓取,該步驟是搜索引擎的數據準備過程。具體過程如圖1所示。URL?DB存放所有待爬取的URL,URL調度模塊從URL?DB中選取出最重要的URL并將其放入URL下載隊列,頁面下載模塊對該隊列中的URL進行下載,下載完畢后,抽取模塊對下載的頁面代碼進行正文和URL抽取,抽取的正文發送給索引模塊進行分詞和建索引,URL放入URL?DB。

信息采集過程,是將別人網站的信息放到抓取到自己的信息庫的過程,會面臨著一些問題。

1、互聯網信息每刻都不停的增加,因而信息抓取是7*24小時不間斷過程。頻繁的抓取會對目標網站帶來巨大的訪問壓力,形成DDOS拒絕服務攻擊,導致無法為正常用戶提供訪問,這一點在中小型網站體現的尤為明顯,這些網站的硬件資源比較差,技術力量不強,而互聯網中90%以上是該類型的網站。例如:某著名搜索引擎由于頻繁抓取某網站而召到用戶投訴。

2、有些網站的信息具備隱私或版權,很多網頁中包含后臺數據庫、用戶穩私、密碼等信息。網站主辦者不希望這些信息被公之于眾或無償使用。大眾點評網曾就愛幫網抓取其網站上的點評信息,然后發布在自己網站上的行為進行起訴。

目前針對搜索引擎的網頁反采集采取的主流方法有robots協議約定,網站通過一個robots.txt協議來自主控制是否愿意自身內容被搜索引擎收錄,以及允許哪些搜索引擎收錄,并且指定自身可供收錄和禁止收錄的內容。同時,搜索引擎會自覺按照每個網站Robots協議給予自己的權限來進行抓取。該方法假定的搜索引擎爬取流程如下:

下載網站robots文件-按robots協議解析該文件--獲取待下載的URL-判斷該URL所在的訪問權限-根據判斷結果決定是否爬取。

Robots協議是君子協議,無任何約束性,爬取的主動性仍然完全控制在搜索引擎一方,完全可以不遵循該協議進行強行爬取。例如國內某著名搜索引擎在2012年8月份不遵循該協議爬取百度網站內容而遭到百度指責。

另外一種反采集方法主要通過使用動態技術構建欲禁止抓取的網頁,該方法通過使用客戶端腳本語言(如JS,VBScript,AJAX)動態生成網頁顯示信息,從而實現信息隱藏,使常規的搜索引擎難以獲取URL和正文內容。動態網頁構建技術只是增加了網頁解析和抽取的難度,并不能從根本上禁止網頁信息的采集和解析,目前,一些先進的搜索引擎已經可以做到模擬瀏覽器實現所有腳本代碼的解析,獲取所有信息的網絡URL,從而獲取存放于服務器的動態信息。

目前已經存在成熟的網頁動態解析技術,主要是通過解析網頁中所有的腳本代碼段,然后獲取網頁所有的動態信息(包括有用信息和垃圾信息)。實際實施過程是以開源的腳本代碼解析引擎(如Rhino,V8等)為內核,構建網頁腳本解析環境,然后抽取網頁中的腳本代碼段,將抽取的代碼段放入網頁腳本解析環境中執行解析,從而返回動態信息。解析過程如圖2所示,所以動態技術構建動態網頁的方法只是增加了網頁采集和解析的難度,并沒有從根本上杜絕搜索引擎的采集。

發明內容

本發明的目的是提供了一種能識別網頁信息自動采集的系統與方法,克服了現有技術的不足,該系統通過分析網站的歷史網頁訪問行為,建立自動采集分類器,識別出機器人的自動采集,通過自動機器人采集識別,實現網頁反抓取。

本發明采用的技術方案如下:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金軍;江巖,未經金軍;江巖許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201310128305.6/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 中文字幕一区2区3区| 国产亚洲欧美日韩电影网| 欧美乱大交xxxxx胶衣| 午夜亚洲国产理论片一二三四| 久久精品视频一区二区| 亚洲午夜国产一区99re久久| 少妇厨房与子伦免费观看| 四虎国产精品永久在线| 国产呻吟高潮| 日本一区二区三区免费在线| 久久综合狠狠狠色97| 日本美女视频一区二区三区| 国产日韩欧美网站| 欧美精品免费看| 国产精品一区二| 欧洲精品一区二区三区久久| 久久99精品国产一区二区三区| 欧美一区二区免费视频| 国产精品自产拍在线观看桃花| 精品国产乱码久久久久久影片| 国产91高清| 午夜国内精品a一区二区桃色| 国产精品二区一区二区aⅴ| 国产97久久| 国产欧美一区二区精品性色超碰| 亚洲午夜久久久久久久久电影院| 午夜爱爱电影| 国产日韩一二三区| 农村妇女精品一区二区| 欧美午夜一区二区三区精美视频| 国产精品中文字幕一区| 国产一级片子| 日本一区二区在线观看视频| 一区二区三区中文字幕| 午夜激情免费电影| 亚洲精品国产一区二| 国产精品视频免费看人鲁| 毛片大全免费看| 国产精品麻豆一区二区三区| 国产aⅴ一区二区| 91亚洲欧美强伦三区麻豆| 麻豆9在线观看免费高清1| 国产精品日韩电影| 午夜毛片在线看| 欧美一区二区免费视频| 国产天堂第一区| 狠狠色丁香久久婷婷综合丁香| 亚洲精品suv精品一区二区| 国产日韩精品一区二区| 国产91色综合| 99精品欧美一区二区三区美图| 久久一区二区精品| 日韩av在线电影网| 超碰97国产精品人人cao| 精品久久久久久中文字幕大豆网| 日本三级韩国三级国产三级| 97久久超碰国产精品| 日本神影院一区二区三区| 亚洲精品20p| 中文字幕精品一区二区三区在线| 欧美日韩一二三四区| 99欧美精品| 精品综合久久久久| 亚洲国产美女精品久久久久∴| 国产精品亚洲第一区| 免费久久99精品国产婷婷六月| 国产精品一区一区三区| 美国一级片免费观看| 国产精品欧美久久久久一区二区 | 国产婷婷一区二区三区久久| 久久一级精品| 午夜影院h| 91高清一区| 狠狠躁日日躁狂躁夜夜躁av| 一区二区三区四区国产| 久久青草欧美一区二区三区| 国产不卡一二三区| 欧美一区二区三区不卡视频| 国产三级国产精品国产专区50| 99精品黄色| 日韩精品中文字幕一区二区| 91一区二区在线观看|