[發明專利]一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法有效
| 申請號: | 201811442700.0 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614534B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 李石君;黎文丹;楊濟海;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06N3/06 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 增強 聚焦 爬蟲 鏈接 價值 預測 方法 | ||
1.一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法,其特征在于,包括:
步驟1,用戶根據需要配置主題相關的種子站點URL集合、配置主題相關關鍵詞及其對應權重;在聚焦爬蟲啟動時,系統自動載入主題相關URL和主題關鍵詞;
步驟2,構建兩個具有相同結構的神經網絡,并初始化各層神經元的權重和偏置;構建大小為MEMORY_SIZE的記憶庫,用于存放歷史信息;指定訓練集的大小為BATCH_SIZE;
步驟3,給每個種子站點URL設置一個默認鏈接價值,并將種子站點URL放入待爬行隊列;
步驟4,在待爬行隊列中按URL鏈接的鏈接價值大小逆序排列,鏈接價值包含了對鏈接目標網頁主題相關度的預測和從該鏈接出發能找到主題相關頁面的潛力的預測,選擇鏈接價值最大的URL鏈接作為爬行目標;
步驟5,下載器下載爬行目標對應的目標網頁,從網頁中抽取網頁內容相關信息并計算網頁主題相關度;
步驟6,從目標網頁中抽取子鏈接URL,將子鏈接的文字信息和結構信息特征化,得到子鏈接特征向量;子鏈接的特征項包括以下八項:URL錨文本主題相關度、URL周圍文字主題相關度、URL所在頁面主題相關度、URL所在頁面子鏈接錨文本主題相關度均值、父URL的鏈接價值、距離為1的父頁面主題相關度均值、距離為2的父頁面主題相關度均值、距離為3的父頁面主題相關度均值;
步驟7,用增強學習方法和兩個結構相同參數不同的神經網絡計算URL的鏈接價值實際值和估計值,并計算誤差,用梯度下降法優化神經網絡參數并更新兩個神經網絡的參數;
步驟8,將子鏈接及其相應價值估計值放入待爬行的優先隊列;
步驟9,重復步驟4至步驟8直至滿足停止條件;當滿足以下任意條件即可停止:
條件一、超過爬行時間閾值;
條件二、爬行深度超過深度閾值;
條件三、無法獲取新的URL地址。
2.根據權利要求1所述的一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法,其特征在于,步驟2具體操作方法是:構建的兩個三層神經網絡中,神經網絡的第一層為輸入層,神經元個數與特征向量的維數一致;神經網絡的第二層為隱藏層,具有至少16個神經元;神經網絡的第三層為輸出層,只有一個神經元,使用relu作為激活函數。
3.根據權利要求1所述的一種基于深度學習和增強學習的聚焦爬蟲鏈接價值預測方法,其特征在于,步驟5具體包括以下子步驟:
步驟5.1、抽取網頁不同位置的文字信息:能夠概括和表達網頁內容主題的文字信息包括:網頁URL鏈接錨文本、網頁標題、網頁描述信息、網頁關鍵詞信息、網頁正文內容;網頁標題可以從title標簽中抽取,網頁描述信息可以從meta name=”description”標簽中抽取,網頁關鍵詞信息可以從meta name=”keywords”標簽中抽取;
步驟5.2、構造位置-關鍵詞詞頻矩陣:
位置-關鍵詞詞頻矩陣是一個m*n的矩陣,m為不同位置的個數,n為主題關鍵詞個數;矩陣中每一個分量tfij表示第i個位置上第j個關鍵詞的詞頻,詞頻的計算方法為nij表示第i個位置上第j個關鍵詞出現的次數,∑knik表示第i個位置上所有關鍵詞出現的總數;
步驟5.3、計算網頁主題特征向量:
第一個矩陣是一個1*m的位置權值矩陣,代表著不同位置的重要程度,pi表示第i個位置的權值;第二個矩陣是一個m*n的位置-關鍵詞詞頻矩陣,代表不同位置不同關鍵詞出現頻率;
步驟5.4、用余弦相似度計算主題特征向量和網頁主題特征向量的相似度:
其中,wi表示第i個關鍵詞的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811442700.0/1.html,轉載請聲明來源鉆瓜專利網。





