日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于搜索引擎的網絡爬蟲的實現方法無效

專利信息
申請號: 201210211633.8 申請日: 2012-06-25
公開(公告)號: CN103514189A 公開(公告)日: 2014-01-15
發明(設計)人: 蔣志勇 申請(專利權)人: 上海博騰信息科技有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 201315 上海市浦*** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 搜索引擎 網絡 爬蟲 實現 方法
【說明書】:

技術領域

發明涉及一種信息搜集技術,尤其涉及一種基于搜索引擎的網絡爬蟲的實現方法。

背景技術

隨著互聯網的發展壯大,人們獲取信息的途徑逐漸被網絡所替代。互聯網發展初期,人們主要通過瀏覽門戶網站的方式獲取所需信息,但是隨著Web的急劇發展,用這種方式尋找自己所需信息變得越來越困難。目前,人們大多通過搜索引擎獲取有用信息,因此,搜索引擎技術的發展將直接影響人們獲取所需信息的速度和質量。

1994年,世界上第一個網絡檢索工具Web?Crawler問世,目前較流行的搜索引擎有百度、Google、Yahoo、Info?seek、Inktomi、Teoma、Live?Search等。出于商業機密的考慮,現在各個搜索引擎使用的Crawler系統的技術內幕一般都不公開,現有的文獻資料也僅限于概要性介紹。隨著網絡信息資源呈指數級增長及網絡信息資源動態變化,傳統的搜索引擎提供的信息檢索服務已無法滿足人們日益增長的對個性化服務的需求,正面臨著巨大的挑戰。

傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。此外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。

發明內容

為克服傳統網絡爬蟲技術的采用固定搜索策略,缺乏適應性的缺點,本發明提出的方法可滿足客戶多種需求、實現實時更新數據的爬蟲技術。

本發明公開的方法由五個模塊組成,分別是socket功能模塊、http功能模塊、正則表達式功能模塊、深度搜索功能模塊、廣度搜索功能模塊。

所述Socket功能模塊,是網絡爬蟲依賴的背景知識,存在于知識管理系統的結構中,客戶通過socket套接字與服務端建立起連接;

所述http功能模塊,客戶端必須定義一組URL來確定要瀏覽的地址,當客戶機與服務器建立連接后,發送一個請求給服務器如果服務器接到請求后,給予相應的響應信息,這樣就可以將網頁上代碼提取出來;

所述正則表達式功能模塊,正則表達式描述了一種字符串匹配的模式,可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。客戶端接收到服務端網頁上代碼后,正則表達式作為一個模板,將URL字符模式與所搜索的字符串進行匹配,然后將相應的URL提取出來;

所述深度搜索功能模塊,本發明方法開始時對網頁上的所有URL均未曾訪問過。通過正則表達式在網頁提取出來的第一個URL為初始出發點S,并將其標記為已訪問過;然后依次從S出發搜索S相連接的網頁的鏈接地址W。若W未曾訪問過,則以W為新的出發點繼續進行深度優先遍歷,直至滿足用戶的需求。若此時仍有未訪問的頂點,則另選一個尚未訪問的頂點作為新的源點重復上述過程,直至在滿足用戶需求的前提下將網頁中所有頂點均已被訪問為止。

所述廣度搜索功能模塊,本發明開始時對網頁上的所有URL均未曾訪問過。爬蟲從初始頁面p0的URL開始,通過正則表達式檢索頁面p0并抽取頁面中的所有URL,將它們添加到URL隊列中。然后,爬蟲按某種次序從隊列中獲得URL,重復上述過程,直到滿足客戶端的要求。

附圖說明

附圖主要是用于提供對本發明進一步的理解。附圖示出了本發明的實施例,并與本說明書一起起到解釋本發明原理的作用。附圖中:

圖1示意性地示出了本發明的流程圖。

具體實施方式

以下結合附圖詳細描述本發明的技術方案。

在圖1所示的實施例中,

本發明公開的方法由五個模塊組成,分別是socket功能模塊(1)、http功能模塊(2)、正則表達式功能模塊(3)、深度搜索功能模塊(4)、廣度搜索功能模塊(5)。

所述Socket功能模塊(1),是網絡爬蟲依賴的背景知識,存在于知識管理系統的結構中,客戶通過socket套接字與服務端建立起連接;

所述http功能模塊(2),客戶端必須定義一組URL來確定要瀏覽的地址,當客戶機與服務器建立連接后,發送一個請求給服務器如果服務器接到請求后,給予相應的響應信息,這樣就可以將網頁上代碼提取出來;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海博騰信息科技有限公司,未經上海博騰信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210211633.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产综合久久精品| 午夜欧美a级理论片915影院| 日本美女视频一区二区| 精品一区二区三区视频?| 亚洲伊人久久影院| 日本看片一区二区三区高清| 粉嫩久久99精品久久久久久夜| 午夜亚洲影院| 中文丰满岳乱妇在线观看| 制服丝袜亚洲一区| sb少妇高潮二区久久久久| 国产精品乱码一区| 日韩av在线资源| 日本一区二区三区免费在线| 日韩一级视频在线| 99爱精品视频| 国产精品电影一区二区三区| 一本大道久久a久久精品| 国产在线拍揄自揄拍| 欧美一区二区三区免费看| 97香蕉久久国产超碰青草软件| 特高潮videossexhd| 综合国产一区| 久久精品国产亚洲一区二区| 久久国产精彩视频| 日本五十熟hd丰满| 午夜av片| 色噜噜狠狠一区二区| 国产品久精国精产拍| 国产精品久久91| 国产免费第一区| 亚洲欧美国产精品va在线观看| 久久久久国产精品www| 国产一区二区三区影院| 国产一区二区三区小说| 性国产日韩欧美一区二区在线 | 国产精品一区二区在线看| 国产黄色网址大全| 亚洲福利视频一区| 久热精品视频在线| 久久综合国产精品| 欧洲在线一区二区| 国产精品一卡二卡在线观看| 国产视频精品久久| 国产91热爆ts人妖系列| 国产精品二区一区| 国产精品乱码一区| 右手影院av| 精品国产九九| 一色桃子av| 久久精品视频3| 国产91在线拍偷自揄拍| 91精品久久久久久久久久| 国产日韩麻豆| 日韩精品999| 国产一区二区黄| 国产在线不卡一区| 日韩一级精品视频在线观看 | 久久精品国产亚洲7777| 国产精品影音先锋| 国产一区二区午夜| 国产不卡网站| 精品少妇的一区二区三区四区| 国产精品5区| 国精偷拍一区二区三区| 午夜伦情电午夜伦情电影| 欧美激情综合在线| 99er热精品视频国产| 96国产精品视频| 午夜伦理片在线观看| 亚洲国产精品日韩av不卡在线| 97人人澡人人爽91综合色| 欧美精选一区二区三区| 国产精品亚洲а∨天堂123bt| 久久一级精品| xxxxhd欧美| 日本一区二区三区免费在线| 午夜无人区免费网站| 国产精品一二三四五区| 91九色精品| av午夜在线| 日韩av在线免费电影| 欧美久久久一区二区三区| 国产亚洲精品久久19p| 午夜精品在线观看| 亚洲午夜精品一区二区三区电影院| 年轻bbwwbbww高潮| 国产www亚洲а∨天堂| 国产区91| 亚洲国产精品一区在线观看| 亚洲国产偷| 亚洲1区在线观看| 国产99小视频| 日韩欧美国产第一页| 在线播放国产一区| 一区二区免费在线观看| 欧美日韩精品影院| 欧美日韩国产123| 午夜黄色一级电影| 国产精品日韩一区二区| 一本大道久久a久久精品| 999久久国精品免费观看网站| 久久久综合香蕉尹人综合网| 国产在线干| 中文字幕亚洲欧美日韩在线不卡| 亚洲二区在线播放视频| 国产女性无套免费看网站| 在线观看黄色91| 一级久久久| 欧美精品粉嫩高潮一区二区 | free×性护士vidos欧美| 国产91清纯白嫩初高中在线观看| 国产一区二区三区的电影| 性欧美一区二区三区| 国产一区第一页| 欧美二区精品| 91婷婷精品国产综合久久| 欧美日韩国产精品综合| 国产一级片一区| 狠狠色狠狠色综合久久一| 国产精品一区亚洲二区日本三区 | 99久久国产综合| 麻豆国产一区二区| 亚洲欧美日韩在线| 日韩精品午夜视频| 亚洲精品久久久久久动漫| 农村妇女毛片精品久久| 久久夜色精品国产噜噜麻豆| 欧美一区二区三区四区五区六区| 午夜片在线| 国产午夜精品一区二区三区最新电影 | 91麻豆精品国产91久久久资源速度 | 欧美日韩一区二区三区在线播放 | 猛男大粗猛爽h男人味| 四季av中文字幕一区| 国产在线精品区| 销魂美女一区二区| 素人av在线| 久久国产激情视频| 91超薄丝袜肉丝一区二区| 欧美精品一级二级| 日韩精品久久一区二区三区| 中出乱码av亚洲精品久久天堂| 国产乱人伦精品一区二区三区| 国产欧美日韩va另类在线播放| 国产一二三区免费| 99日本精品| 狠狠躁夜夜躁2020| 一区二区91| 91精品久久久久久综合五月天| 国产一区二区电影在线观看| 国产一级自拍片| 香蕉av一区二区| 国产在线精品一区二区在线播放| 国产高清一区二区在线观看| 国产亚洲精品久久久久久网站 | 欧美一区二区性放荡片| 亚洲欧洲日韩av| 国产午夜亚洲精品午夜鲁丝片| 国产床戏无遮挡免费观看网站 | 日韩av一区不卡| 夜夜爱av| 久久久久国产精品视频| 国产91九色在线播放| 精品少妇一区二区三区免费观看焕| 国产精品亚洲精品| 欧美一区二粉嫩精品国产一线天| 国产精品日韩电影| 亚洲欧美一卡二卡| 99精品小视频| 精品国产九九九| 68精品国产免费久久久久久婷婷| 久久久国产精品一区| 一区二区久久精品| 一级久久精品| 狠狠色丁香久久综合频道日韩| 色综合欧美亚洲国产| 国产精品久久久久久久久久嫩草| 97视频一区| 一区二区三区中文字幕| 亚洲欧洲国产伦综合| 久久九精品| 国产在线欧美在线| 国产亚洲精品久久久久久网站| 亚洲神马久久| freexxxxxxx| 精品国产免费久久| 国产欧美一区二区三区在线播放| 欧美一区二区三区艳史| www亚洲精品| 午夜爽爽视频| 午夜电影毛片| 制服丝袜亚洲一区| 狠狠色噜噜狠狠狠四色米奇| 991本久久精品久久久久| 狠狠色噜噜综合社区| 国产高清在线观看一区| 国产视频在线一区二区| 国产在线一区不卡| 国产精品区一区二区三| 日韩av中文字幕在线免费观看| 伊人久久婷婷色综合98网| 麻豆精品久久久| 亚洲精品日韩激情欧美| 欧美一区二区三区白人| 国产偷亚洲偷欧美偷精品| 正在播放国产一区二区| 黄色91在线观看| 一级黄色片免费网站| 国产精品国外精品| 91精品视频一区二区三区| 国产精品伦一区二区三区级视频频| 99久久精品免费看国产交换| 中文字幕欧美久久日高清| 一区二区中文字幕在线观看| 免费毛片a| 午夜大片网| 欧美精品免费看| 亚洲欧洲另类精品久久综合| 欧美一区二区伦理片| 久久99精| 国产精选一区二区| 日韩精品一区二区三区免费观看| 精品福利一区二区| 狠狠色噜噜狠狠狠狠88| 亚洲码在线| 国产伦精品一区二区三区免费迷| 国产一区观看| 91视频国产九色| 91精品国产高清一二三四区 | av素人在线| 亚洲精品日本久久一区二区三区| 久久国产中文字幕| 一本色道久久综合亚洲精品图片 | 国产九九影院| 国产亚洲精品久久19p| 国产一级片网站| 精品少妇一区二区三区| 国产伦精品一区二区三区无广告| 国产精品不卡一区二区三区 | 国产乱人伦精品一区二区| 国产在线一区观看| 午夜一级免费电影| 最新国产精品自拍| 亚洲精品久久久中文| 十八无遮挡|