日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法有效

專利信息
申請號: 201811442700.0 申請日: 2018-11-29
公開(公告)號: CN109614534B 公開(公告)日: 2021-08-17
發明(設計)人: 李石君;黎文丹;楊濟海;余偉;余放;李宇軒 申請(專利權)人: 武漢大學
主分類號: G06F16/951 分類號: G06F16/951;G06F16/955;G06N3/06
代理公司: 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 代理人: 魯力
地址: 430072 湖*** 國省代碼: 湖北;42
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 深度 學習 增強 聚焦 爬蟲 鏈接 價值 預測 方法
【說明書】:

發明涉及一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法,所述方法中網絡爬蟲沿著URL鏈接構成的網絡拓撲圖爬行,通過歷史爬行過程的累計獎賞信息和URL特征預測URL鏈接的主題價值,并依據鏈接主題價值的大小選擇下一個目標網頁。本發明的創新點在與構建了可用于增強學習的鏈接特征向量并將深度學習和增強學習結合用于聚焦爬行過程中的鏈接價值預測問題。

技術領域

本發明涉及一種網絡頁面爬行鏈接預測方法。所述方法中網絡爬蟲沿著URL鏈接構成的網絡拓撲圖爬行,通過歷史爬行過程的累計獎賞信息和URL特征預測URL鏈接的主題價值,并依據鏈接主題價值的大小選擇下一個目標網頁。

背景技術

隨著互聯網的推廣和普及,網絡上出現了越來越多的資源,快速定位資源所在主機的位置并獲取資源成為了搜索引擎誕生的重要原因之一。從1993年至今,搜索引擎從最初的網頁分類目錄到關注用戶個性需求的搜索,全網搜索引擎如:Yahoo!、Google、Bing、Baidu等已經完全融入人們的日常生活。全網搜索引擎搭建在大規模計算機集群之上,定期收集整個互聯網中所有資源的信息并建立索引以供用戶查詢。全網搜索引擎在一定程度上滿足了用戶快速索引網絡資源的需求,但它也存在消耗大量網絡資源、構建成本高昂、搜索結果主題寬泛等問題。為了提高搜索結果的主題相關度,聚焦搜索引擎應運而生。聚焦搜索消耗網絡資源少、構建成本低、搜索結果范圍與主題密切相關。

聚焦爬蟲是聚焦搜索引擎的關鍵模塊,與通用爬蟲不同之處在于,聚焦爬蟲只下載與主題相關的網頁以便于確定主題的精確搜索。為了更好的節約網絡帶寬等資源,正確且高效的定位Web網絡中的主題相關網頁成為聚焦爬蟲面臨的重要問題。經過研究者長時間的研究和實驗,定位主題相關網頁主要依靠主題概念的構建、網頁內容主題相關性分析、鏈接主題相關性分析。

鏈接主題相關性分析是影響聚焦爬蟲爬行效果的重要問題之一,其目標是在不下載鏈接對應目標網頁的情況下預測目標網頁主題相關度。由于聚焦爬蟲的目標是盡可能多的只下載與目標主題相關的網頁,如果能利用Web網頁拓撲結構特征在鏈接對應目標網頁下載前猜測鏈接內容主題相關性就可以避免下載主題無關網頁。鏈接主題相關性分析過程中存在主題定位現象和主題孤島問題。主題定位現象是指相連網頁有很大的概率有高的文本相似度,Davison通過實驗證明在Web中存在主題定位現象。隨后Mencer擴展了他的研究并證實了鏈接內容猜想的存在性,即鏈接內容猜測:一個頁面與鏈接到它的頁面相似,鏈接集群猜想如果它們位于幾個鏈接之內,則兩個頁面更有可能彼此相關。Menzcer表示相關概率保持在距相關頁面三個鏈接的距離內,但隨后迅速衰減。主題孤島問題是指同一個主題上的頁面可能不會直接鏈接,并且可能需要遍歷一些脫離主題的頁面才能訪問相關頁面,例如包含了大量主題相關頁面鏈接的列表頁和導航頁。現有的鏈接主題相關度分析方法大都基于主題定位現象進行頁面相關性預測并著重研究和解決主題孤島問題。利用主題定位現象進行鏈接內容猜測,Best-first方法使用主題關鍵詞集合和父頁面的文本內容計算父頁面主題相關度并用父頁面主題相關度評估所有子頁面的相關度。為了解決主題孤島問題,Fish Search方法在Best-first方法的基礎上為子頁面設置了一個爬行深度用于控制和主題相關頁面的最大距離。改進后的Fish Search方法使得聚焦爬蟲具備一定程度的智能,能夠過濾一些主題無關的頁面。然而Fish Search方法在評估同一頁面的所有子頁面時沒有充分考慮不同頁面的主題差異,為此Shark Search方法在計算URL的潛在主題分數時不但繼承了雙親的主題相關度而且充分利用了錨文本和錨文本的上下文。由于同一頁面不同URL的主題相關度得到進一步區分,此算法比Fish Search算法的精度更高。除了利用主題定位現象評估子頁面的相關度,Junghoo Cho等人還提出了從反向鏈接、前向鏈接和PageRank值等多種方面衡量頁面的重要度。由于PageRank不能很好的應用與聚焦爬蟲,Ling等人嘗試改進PageRank算法,并加入聚焦爬蟲子頁面相關度評分中。為了充分利用爬行過程中產生的上下文信息,M.Diligent等人提出一種基于局部頁面的上下文圖模型,該方法通過從種子站點反向爬行構建以種子站點為頂點的多層上下文樹,并使用分類器分類訓練上下文圖的每一層,在爬行過程中利用分類器判斷頁面距離種子站點的層次及所在圖層。傅向華、馮博琴等人將主題爬蟲的爬行過程看作序列動作的執行過程,利用增強學習的思想,將Web網頁的鏈路結構作為增強學習的路徑,并使用半監督貝葉斯分類器訓練主題識別模型。基于強化學習的鏈接主題方法是一種增量自學習方法,與其他鏈接主題分析方法不同的是,該方法使用鏈接潛在價值即通過鏈接能找到主題頁面能力作為標準判斷鏈接主題相關度。通過學習鏈接潛在價值,可以更好的解決主題孤島問題,因為包含更多到主題相關頁面鏈接的列表頁或導航頁對應的潛在價值應該比較高。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201811442700.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 97欧美精品| 久久国产欧美日韩精品| 国产精品久久久综合久尹人久久9| 国产盗摄91精品一区二区三区| 欧美日韩国产区| 久久噜噜少妇网站| 国产一区二区三区的电影| 亚州精品国产| 亚洲欧洲日韩| 一区不卡av| 97精品久久久午夜一区二区三区| 欧美乱妇高清无乱码免费| 国产精品久久二区| 国产精欧美一区二区三区久久| 精品国产鲁一鲁一区二区作者| 亚洲视频精品一区| 国产精品1区二区| 国产高清不卡一区| 久99精品| 日本看片一区二区三区高清| 日本黄页在线观看| 午夜激情看片| 日韩精品午夜视频| 国产精品一区二区av麻豆| 色天天综合久久久久综合片| 国产精品久久久久久久久久久杏吧| 日本三级香港三级| 欧美激情综合在线| 91精品系列| 久久激情综合网| 在线精品视频一区| 国产va亚洲va在线va| 亚洲国产一区二区久久久777| 亚洲第一区国产精品| 免费a级毛片18以上观看精品| 国精偷拍一区二区三区| 日韩一区二区中文字幕| 国产日韩欧美精品一区二区| 国产精品一区二区av麻豆| 亚欧精品在线观看| 亚洲精品人| 激情久久精品| av午夜影院| 欧美极品少妇videossex| 欧美日韩一级在线观看| 97久久国产亚洲精品超碰热 | 国产乱xxxxx国语对白| 欧美乱码精品一区二区三| 91超薄丝袜肉丝一区二区| 国产91九色在线播放| 91麻豆精品国产自产欧美一级在线观看| 亚洲欧美日韩国产综合精品二区 | 亚洲精品少妇一区二区| 91精品国产麻豆国产自产在线| 一色桃子av大全在线播放| 国产一区在线视频观看| 国产一区二区伦理片| 久久久精品a| 国产91丝袜在线播放动漫| 91一区二区三区在线| 亚洲国产精品91| 久久一级精品视频| 久久天堂国产香蕉三区| 国产午夜精品免费一区二区三区视频 | 欧美日韩不卡视频| 玖玖国产精品视频| 国产一级自拍片| 精品国产免费久久| 老女人伦理hd| 91精品夜夜| free性欧美hd另类丰满| 国产日韩欧美视频| 精品国产乱码久久久久久久久| 日本午夜精品一区二区三区| 国产一级一区二区| 欧美精品一区二区三区四区在线| 亚洲精品一区二区三区香蕉| 国产精品自拍在线| 欧美在线视频一二三区| 日韩精品在线一区二区三区| 99久久免费精品视频| 国产高清无套内谢免费| 精品福利一区| 综合久久激情| 99精品视频一区| 国产无遮挡又黄又爽免费网站| 久久福利免费视频| 欧美一区视频观看| 免费91麻豆精品国产自产在线观看| 亚洲影院久久| 高清人人天天夜夜曰狠狠狠狠| 久久免费视频一区| 国产69精品久久久久久野外| 一区二区在线国产| 日韩精品一区二区三区免费观看视频| 欧美一区二区三区爽大粗免费| 国产农村妇女精品一区二区| 天摸夜夜添久久精品亚洲人成 | 国产一区2区3区| 亚洲三区在线| xoxoxo亚洲国产精品| 国产精品一二三区视频网站| 国产乱xxxxx国语对白| 李采潭无删减版大尺度| 国产亚洲精品久久午夜玫瑰园 | 久久久久国产亚洲| 精品香蕉一区二区三区| 狠狠色狠狠色很很综合很久久| 欧美xxxxxhd| 91社区国产高清| 亚洲精品日本久久一区二区三区 | 日韩av电影手机在线观看| 久久精品一二三四| 99久久免费毛片基地| 久久精品国产99| 国产激情二区| 亚洲福利视频一区二区| 国产一区二区黄| 久久久精品99久久精品36亚| 免费观看xxxx9999片| 丰满岳乱妇在线观看中字| 一区二区三区国产精品| 午夜无遮挡| 91精品一区| 亚洲欧洲一区二区| 久99久精品| bbbbb女女女女女bbbbb国产| 亚洲麻豆一区| 91久久免费| 91精品视频在线观看免费| 亚洲精品国产91| 午夜影院试看五分钟| 人人要人人澡人人爽人人dvd| 日韩精品一区二区三区中文字幕| 91精品免费观看| 国产一区欧美一区| 欧美福利三区| 国产欧美一区二区三区沐欲 | 91精品视频在线免费观看| 亚洲一卡二卡在线| 亚日韩精品| 黄毛片免费| 91精品一区在线观看| 国产日韩一区在线| 国产欧美www| 69久久夜色精品国产69乱青草 | 国偷自产一区二区三区在线观看| 中文字幕久久精品一区| 欧美福利三区| 国产一区二区三区影院| 欧美日韩中文不卡| 欧美xxxxxhd| 欧美一区二区三区不卡视频| 99久久精品一区字幕狠狠婷婷| 日韩久久精品一区二区三区| 91黄色免费看| 欧美精品一区久久| 国产一区二区三区精品在线| 狠狠色很很在鲁视频| 国产一区二区伦理| 国产精品高潮在线| 男女无遮挡xx00动态图120秒| 亚洲午夜国产一区99re久久| 国产精品人人爽人人做av片| 欧美日韩国产影院| 精品国产免费一区二区三区| 91精品啪在线观看国产手机 | 夜夜躁人人爽天天天天大学生| 国产精品视频1区| 亚洲精品久久久久中文字幕欢迎你 | 国内少妇自拍视频一区| 国产精品麻豆一区二区| 99日本精品| 国产三级精品在线观看| 久久婷婷国产综合一区二区| 91麻豆精品国产91久久久更新资源速度超快 | 国产精品自产拍在线观看蜜| 超碰97国产精品人人cao| 精品一区二区三区自拍图片区| 91福利试看| 中文字幕二区在线观看| 国产免费观看一区| 91精品视频在线观看免费| 蜜臀久久99精品久久久| 亚洲国产精品91| 欧美日韩中文国产一区发布| 久99久精品| 国产伦精品一区二区三区照片91| 亚洲欧美制服丝腿| 欧美亚洲精品suv一区| 国产精品黑色丝袜的老师| 久久国产这里只有精品| 国产欧美www| 美国一级片免费观看| 国产亚洲精品精品国产亚洲综合 | 欧美乱妇高清无乱码免费| 国产精品一区二区三区在线看| 午夜大片男女免费观看爽爽爽尤物 | 满春阁精品av在线导航 | 韩漫无遮韩漫免费网址肉| 国产日韩欧美色图| 日韩精品一区二区久久| 扒丝袜网www午夜一区二区三区| 色一情一交一乱一区二区三区| 国产精品久久久久久久久久嫩草| 娇妻被又大又粗又长又硬好爽| 亚洲乱子伦| 国产原创一区二区 | 国产不卡网站| 日韩免费一级视频| 国产一区在线免费| 一区二区三区欧美精品| 午夜666| 亚洲欧美精品suv| 日韩欧美高清一区二区| 一色桃子av大全在线播放| 日韩欧美中文字幕一区| 欧美日韩精品中文字幕| 午夜激情在线| 日本xxxx护士高潮hd| 中文字幕一区二区三区又粗| 国产色99| 国产精品高潮呻吟三区四区| 国产精品综合一区二区三区| 国精偷拍一区二区三区| 国产一区二区三区小说| 国产91热爆ts人妖系列| 久久精品国产99| 日韩欧美国产精品一区| 欧美性xxxxx极品少妇| 视频一区欧美| 国产在线干| 久久国产精品网站| 国产日韩欧美91| 国产一区中文字幕在线观看| 日韩精品乱码久久久久久| 欧美日韩一卡二卡| 性欧美1819sex性高播放| 国久久久久久| 国产一区二区片| 欧美日韩一区免费| 亚洲乱子伦| 欧美一区二区久久| 狠狠色噜噜狠狠狠狠色综合久老司机| 香蕉av一区二区| 日本看片一区二区三区高清|