日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種主題網絡爬蟲系統的設計方法無效

專利信息
申請號: 200910094834.2 申請日: 2009-08-14
公開(公告)號: CN101630327A 公開(公告)日: 2010-01-20
發明(設計)人: 張云偉;汪斌;何慶華 申請(專利權)人: 昆明理工大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 昆明今威專利代理有限公司 代理人: 何積國
地址: 650093云南省昆明市*** 國省代碼: 云南;53
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 主題 網絡 爬蟲 系統 設計 方法
【說明書】:

技術領域

本發明專利涉及網絡數據采集系統設計方法,尤其涉及一種主題網絡爬蟲系統的設計方法。

背景技術

當今的世界是信息的世界,但隨著網絡的迅猛發展,網絡信息呈幾何級數增長。因此如何在浩瀚如海的信息空間里快速查找并獲取自己需要或感興趣的信息已成為信息時代最根本的問題之一。目前的搜索引擎大多數是面向全部信息的,可以稱之為綜合性搜索引擎,但隨著信息多元化的發展,這種適用于所有用戶的綜合性搜索引擎顯然已經不能滿足特定用戶更加深入的查詢要求,他們對信息的需求往往是針對某些受限領域和面向特定主題的,同時綜合性搜索引擎的信息召回率和精確率都是比較低的。針對這種情況,我們需要一個分類精確、數據全面、更新及時的面向主題的搜索引擎,而網絡爬蟲作為搜索引擎的核心部分,其搜索策略很大程度地影響了搜索引擎的性能。普通爬蟲是按照IP地址搜索策略或預先設定的廣度優先策略、深度優先策略或這兩種策略相結合的方式爬行網頁。通常這幾種爬行方式的特點是爬蟲只按深度爬行網頁,一般很少關注網頁的內容,當爬行到給定的深度時便停止工作。所以它從網絡上搜集到的信息比較全面,正是因為如此其爬行速度較慢,而且搜索結果冗余信息過多、搜索結果雜亂無章,相當一部分內容與檢索人需要的信息的相關度差距較大。為進一步提高搜索結果的內容相關度,從而增加搜索結果的準確性,提出了“最佳優先搜索”的策略。

發明內容

發明目的:本發明的目的是針對現有爬蟲搜索技術的搜索結果相關度差距較大,爬行速度較慢的不足,提出一種基于最佳優先搜索策略的主題網絡爬蟲系統的設計方法。最佳優先搜索策略是根據搜索關鍵詞及其它相關信息,推測用戶搜索時的隱含條件,預測候選URL與目標網頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取,進一步限制搜索結果的范圍。

為實現本發明的目的所采用的技術方案,本設計方法包括以下步驟:

1、建立主題詞庫,確立搜索主題,為每個主題確立不同權值;

2、設定閾值,對爬取網頁進行過濾,剔除主題相關度低于設定閾值的網頁;

3、計算網頁重要程度,確定網頁的訪問順序;

4、為方便主題爬蟲處理鏈接和計算主題相關度,建立4個URL隊列:待分析的URL隊列Waiting?queue、正在分析的URL隊列Running?queue、分析完成的URL隊列Completedqueue、錯誤或拋棄的URL隊列Exceptions?queue。

其中上述步驟1建立主題詞庫,確立搜索主題,為每個主題確立不同權值,得到本方法的主題詞庫,其步驟包括:

(1)、給定一個跟主題信息主題有關的網頁集合,該網頁集合來自建立的專業網站數據庫,具有有代表性和全面概括性,由程序自動將這些網頁里面共同的特征進行提取,并根據頻率確定權值;

(2)、采用手工的方法(主要是通過咨詢相關領域專家獲取)設置一組關于主題信息的關鍵詞并分配權值。

其中上述步驟2對爬取網頁進行過濾,剔除主題相關度低于設定閾值的網頁,其實現方法:采用向量空間模型算法(Vector?Space?Model,VSM)計算網頁主題相關度,實現網頁過濾。

其中上述步驟3計算網頁重要程度,確定網頁的訪問順序,其實現方法:應用超鏈接分析算法來判斷URL的重要性,從而得到網頁的重要程度。

本發明的有益效果是:由于本設計方法的主題爬蟲是按照最佳優先的爬行策略爬行網頁。主題爬蟲有一個網頁分類器,當爬蟲從網絡上抓取到新網頁時,在爬行之前都要進行主題相關度分析,通過分析將優先爬行與初始種子網頁相關度最高的網頁,而與初始種子網頁不相關或著相關度不大的網頁則被拋棄。按照本發明方法構建的主題網絡爬蟲系統與普通網絡爬蟲系統相比,其顯著優點是:爬蟲的工作量大大減少、爬行的速度大大加快,爬行的準確率和全面率大大提高,從而其搜索結果更加令用戶滿意。研究表明,這樣的調整可以將無關網頁數量降低30%~90%。

附圖說明

圖1是本發明系統結構圖;

圖2是URL狀態流程圖。

具體實施方式

如圖1所示,本發明方法所構建的網絡爬蟲系統主要包含:管理界面1、爬行數據庫2、主題詞庫3、主題確定器4、網頁分類器5、網頁選擇器6及Web?Crawler主程序7。主題確定器4是主題爬蟲工作的基礎,網頁分類器5負責學習抓取目標的特點,計算網頁的關聯度,并過濾網頁。網頁選擇器6負責計算網頁的重要程度,并由此動態決定網頁的訪問順序。

下面對本設計方法作詳細說明:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/200910094834.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品18久久久久白浆| 日韩一区二区精品| 欧美日韩激情一区| 国产一级一区二区| 国91精品久久久久9999不卡| 国产一区二区四区| 热99re久久免费视精品频软件 | 欧美激情综合在线| 欧美日韩偷拍一区| 99日本精品| 素人av在线| 欧美一区二区三区艳史| 色婷婷久久一区二区三区麻豆| 亚洲一区欧美| 精品国产乱码久久久久久a丨| 国产三级在线视频一区二区三区| 亚洲欧洲一区二区| 狠狠色噜噜狠狠狠四色米奇| 精品国产一二区| 国产精品乱码久久久久久久久| 国产视频二区在线观看| 欧美高清性xxxxhdvideos| 狠狠色噜噜狠狠狠狠米奇7777| 欧美日韩一区二区三区精品| 91久久精品国产亚洲a∨麻豆 | 在线观看国产91| 99国产午夜精品一区二区天美| 91久久国语露脸精品国产高跟| 国产日韩一区在线| 国产精品日本一区二区不卡视频| 亚洲精品久久在线| 亚洲免费精品一区二区| 国产精品无码专区在线观看| 日韩国产精品一区二区| 国产女人和拘做受视频免费| 欧美一区二区激情三区| 97一区二区国产好的精华液| 7799国产精品久久99| 妖精视频一区二区三区| 色偷偷一区二区三区| 在线观看国产91| 狠狠色噜噜狠狠狠狠777| 亚洲午夜精品一区二区三区电影院| 99久久精品一区字幕狠狠婷婷| 国产日韩欧美第一页| 夜夜精品视频一区二区| 午夜爽爽视频| 亚洲国产精品一区在线| 国产视频一区二区视频| 一区二区三区欧美精品| 欧美网站一区二区三区| 日本黄页在线观看| 亚洲精品久久久久www| 欧美一区二区三区艳史| 亚洲国产精品精品| 国产偷亚洲偷欧美偷精品| 视频一区二区中文字幕| 国产精品亚洲欧美日韩一区在线| 亚洲欧美一二三| 99久久夜色精品| 国产精品高潮呻吟视频| 欧美日韩精品不卡一区二区三区| 伊人久久婷婷色综合98网| 国偷自产一区二区三区在线观看| 国产在线干| 午夜电影毛片| 国产欧美精品一区二区三区-老狼| 国产片91| 国产欧美一区二区精品久久久| 538国产精品| 欧美3级在线| 久久精品爱爱视频| 国产午夜精品免费一区二区三区视频 | 国产电影精品一区| 国产白丝一区二区三区| 99日本精品| 国产女人好紧好爽| 国产九九九精品视频| 精品特级毛片| 精品一区二区在线视频| 久久免费视频一区二区| 久久97国产| 欧美精品免费视频| 久99久视频| 久久69视频| 亚洲神马久久| 天天干狠狠插| 色婷婷综合久久久中文一区二区| 日韩中文字幕在线一区| 国产午夜精品一区二区三区欧美| 久久人做人爽一区二区三区小说| 中文字幕另类日韩欧美亚洲嫩草| 久久99精品国产麻豆宅宅| 中文字幕一区二区三区免费| 久久国产精品波多野结衣| 国产精品偷乱一区二区三区| 91狠狠操| 99国产精品| 日韩精品一区二区不卡| 欧美色综合天天久久综合精品| 狠狠色丁香久久婷婷综合丁香| 欧美精品一区二区性色| 激情欧美日韩| 久久综合狠狠狠色97| 亚洲va久久久噜噜噜久久0| 国产一区二区资源| 亚洲精品日本无v一区| 久久久久国产精品嫩草影院| 一二三区欧美| 福利电影一区二区三区| 国产精品久久免费视频| 国产一级精品在线观看| 欧美日韩高清一区二区| 精品国产一区二区三区久久久久久| 99国产精品| 日本一区二区免费电影| 99久久久国产精品免费无卡顿| 亚洲欧美自拍一区| 国产精品伦一区二区三区视频| www.午夜av| 中文字幕一区二区三区日韩精品| 99国产精品| 中文在线一区二区三区| 性old老妇做受| 国产精品久久久久久久久久嫩草| 日韩av在线网址| 96国产精品视频| 久久人人爽爽| 少妇又紧又色又爽又刺激视频网站| 欧美一区二区精品久久| 99精品一级欧美片免费播放 | 国产一区二| 国产一区不卡视频| 国产乱人伦偷精品视频免下载| 国产91在线拍偷自揄拍| 国产视频一区二区视频| 性刺激久久久久久久久九色| 91理论片午午伦夜理片久久| 一区二区免费在线观看| 久久精品视频中文字幕| 91波多野结衣| 夜夜嗨av一区二区三区中文字幕| 午夜叫声理论片人人影院| 国产精品一区二区在线观看免费| 久久婷婷国产香蕉| 日本一二三区电影| 国产精品美女一区二区视频| 一本久久精品一区二区| 99久久精品一区字幕狠狠婷婷| 国产精品久久久麻豆| 亚洲精品无吗| 精品国产乱码久久久久久a丨| 波多野结衣巨乳女教师| 国产精品丝袜综合区另类| 国产精品9区| 91精品第一页| 久久夜色精品国产噜噜麻豆| 综合欧美一区二区三区| 中文字幕一区一区三区| 欧美一区二区三区中文字幕| 中文字幕在线播放一区| 国产精品不卡在线| 国产精品国产三级国产专区51区| 亚洲精品一区,精品二区| 国产.高清,露脸,对白| 亚洲国产日韩综合久久精品| 毛片免费看看| 亚洲欧美一区二区三区三高潮| 自拍偷在线精品自拍偷无码专区| 久久99精品一区二区三区| 亚洲精品久久久中文| 欧美精品一区二区性色| 国产91白嫩清纯初高中在线| 亚洲国产精品女主播| 国产特级淫片免费看| 日本护士hd高潮护士| 99国产精品一区| 少妇久久免费视频| 日韩电影在线一区二区三区| 一本色道久久综合亚洲精品浪潮| 日韩av在线电影网| 日韩精品中文字幕一区二区| 天天干狠狠插| 国产精品中文字幕一区二区三区 | 国产88av| 91福利视频免费观看| 日韩精品一区二区免费| 亚洲午夜精品一区二区三区| 国模吧一区二区| 91日韩一区二区三区| 国产1区2区3区| 国产丝袜一区二区三区免费视频| 国产精品一区二区日韩新区| 精品久久9999| 久久99国产视频| 国产精一区二区三区| 国产精品一区二区av日韩在线| 亚洲网久久| 99久久精品一区| 欧美日韩国产在线一区| 国产欧美亚洲精品第一区软件| 国产精品视频二区不卡| 亚洲国产精品国自产拍久久| 国产精品区一区二区三| 日韩午夜一区| 日韩精品中文字幕一区二区| 国产欧美一区二区精品性| 色噜噜狠狠色综合中文字幕| 国产乱人乱精一区二视频国产精品| 自偷自拍亚洲| 久久精品—区二区三区| 日本精品视频一区二区三区| 午夜影院一区| 久久第一区| 一区二区三区精品国产| 亚洲精品久久久久一区二区| 国产在线精品一区| 亚洲日韩aⅴ在线视频| 中文在线√天堂| 国产又色又爽无遮挡免费动态图| 96国产精品视频| 国产精品自拍不卡| 欧美日韩一二三四区| 亚洲乱强伦| 岛国精品一区二区| 91精品夜夜| 欧美日韩卡一卡二| 午夜片在线| 日韩一区二区福利视频| 日韩av一区二区在线播放 | 国产大片一区二区三区| 日韩久久电影| 亚洲va国产2019| 国产资源一区二区| 国产www亚洲а∨天堂| 中文字幕制服丝袜一区二区三区| 91亚洲欧美强伦三区麻豆| 午夜激情看片| 国产一区二区高清视频| 欧美极品少妇videossex| 精品久久一区| 午夜精品999| 国产精品亚洲第一区| 在线亚洲精品| 国产一区二区电影在线观看| 97人人模人人爽人人喊小说|