[發明專利]一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法有效
| 申請號: | 201811442700.0 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614534B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 李石君;黎文丹;楊濟海;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06N3/06 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 增強 聚焦 爬蟲 鏈接 價值 預測 方法 | ||
本發明涉及一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法,所述方法中網絡爬蟲沿著URL鏈接構成的網絡拓撲圖爬行,通過歷史爬行過程的累計獎賞信息和URL特征預測URL鏈接的主題價值,并依據鏈接主題價值的大小選擇下一個目標網頁。本發明的創新點在與構建了可用于增強學習的鏈接特征向量并將深度學習和增強學習結合用于聚焦爬行過程中的鏈接價值預測問題。
技術領域
本發明涉及一種網絡頁面爬行鏈接預測方法。所述方法中網絡爬蟲沿著URL鏈接構成的網絡拓撲圖爬行,通過歷史爬行過程的累計獎賞信息和URL特征預測URL鏈接的主題價值,并依據鏈接主題價值的大小選擇下一個目標網頁。
背景技術
隨著互聯網的推廣和普及,網絡上出現了越來越多的資源,快速定位資源所在主機的位置并獲取資源成為了搜索引擎誕生的重要原因之一。從1993年至今,搜索引擎從最初的網頁分類目錄到關注用戶個性需求的搜索,全網搜索引擎如:Yahoo!、Google、Bing、Baidu等已經完全融入人們的日常生活。全網搜索引擎搭建在大規模計算機集群之上,定期收集整個互聯網中所有資源的信息并建立索引以供用戶查詢。全網搜索引擎在一定程度上滿足了用戶快速索引網絡資源的需求,但它也存在消耗大量網絡資源、構建成本高昂、搜索結果主題寬泛等問題。為了提高搜索結果的主題相關度,聚焦搜索引擎應運而生。聚焦搜索消耗網絡資源少、構建成本低、搜索結果范圍與主題密切相關。
聚焦爬蟲是聚焦搜索引擎的關鍵模塊,與通用爬蟲不同之處在于,聚焦爬蟲只下載與主題相關的網頁以便于確定主題的精確搜索。為了更好的節約網絡帶寬等資源,正確且高效的定位Web網絡中的主題相關網頁成為聚焦爬蟲面臨的重要問題。經過研究者長時間的研究和實驗,定位主題相關網頁主要依靠主題概念的構建、網頁內容主題相關性分析、鏈接主題相關性分析。
鏈接主題相關性分析是影響聚焦爬蟲爬行效果的重要問題之一,其目標是在不下載鏈接對應目標網頁的情況下預測目標網頁主題相關度。由于聚焦爬蟲的目標是盡可能多的只下載與目標主題相關的網頁,如果能利用Web網頁拓撲結構特征在鏈接對應目標網頁下載前猜測鏈接內容主題相關性就可以避免下載主題無關網頁。鏈接主題相關性分析過程中存在主題定位現象和主題孤島問題。主題定位現象是指相連網頁有很大的概率有高的文本相似度,Davison通過實驗證明在Web中存在主題定位現象。隨后Mencer擴展了他的研究并證實了鏈接內容猜想的存在性,即鏈接內容猜測:一個頁面與鏈接到它的頁面相似,鏈接集群猜想如果它們位于幾個鏈接之內,則兩個頁面更有可能彼此相關。Menzcer表示相關概率保持在距相關頁面三個鏈接的距離內,但隨后迅速衰減。主題孤島問題是指同一個主題上的頁面可能不會直接鏈接,并且可能需要遍歷一些脫離主題的頁面才能訪問相關頁面,例如包含了大量主題相關頁面鏈接的列表頁和導航頁。現有的鏈接主題相關度分析方法大都基于主題定位現象進行頁面相關性預測并著重研究和解決主題孤島問題。利用主題定位現象進行鏈接內容猜測,Best-first方法使用主題關鍵詞集合和父頁面的文本內容計算父頁面主題相關度并用父頁面主題相關度評估所有子頁面的相關度。為了解決主題孤島問題,Fish Search方法在Best-first方法的基礎上為子頁面設置了一個爬行深度用于控制和主題相關頁面的最大距離。改進后的Fish Search方法使得聚焦爬蟲具備一定程度的智能,能夠過濾一些主題無關的頁面。然而Fish Search方法在評估同一頁面的所有子頁面時沒有充分考慮不同頁面的主題差異,為此Shark Search方法在計算URL的潛在主題分數時不但繼承了雙親的主題相關度而且充分利用了錨文本和錨文本的上下文。由于同一頁面不同URL的主題相關度得到進一步區分,此算法比Fish Search算法的精度更高。除了利用主題定位現象評估子頁面的相關度,Junghoo Cho等人還提出了從反向鏈接、前向鏈接和PageRank值等多種方面衡量頁面的重要度。由于PageRank不能很好的應用與聚焦爬蟲,Ling等人嘗試改進PageRank算法,并加入聚焦爬蟲子頁面相關度評分中。為了充分利用爬行過程中產生的上下文信息,M.Diligent等人提出一種基于局部頁面的上下文圖模型,該方法通過從種子站點反向爬行構建以種子站點為頂點的多層上下文樹,并使用分類器分類訓練上下文圖的每一層,在爬行過程中利用分類器判斷頁面距離種子站點的層次及所在圖層。傅向華、馮博琴等人將主題爬蟲的爬行過程看作序列動作的執行過程,利用增強學習的思想,將Web網頁的鏈路結構作為增強學習的路徑,并使用半監督貝葉斯分類器訓練主題識別模型。基于強化學習的鏈接主題方法是一種增量自學習方法,與其他鏈接主題分析方法不同的是,該方法使用鏈接潛在價值即通過鏈接能找到主題頁面能力作為標準判斷鏈接主題相關度。通過學習鏈接潛在價值,可以更好的解決主題孤島問題,因為包含更多到主題相關頁面鏈接的列表頁或導航頁對應的潛在價值應該比較高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811442700.0/2.html,轉載請聲明來源鉆瓜專利網。





