[發明專利]一種基于遺傳算法的智能聚焦爬蟲系統在審
| 申請號: | 201910072237.3 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109815388A | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 王磊;倪林 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/955 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚焦爬蟲 爬蟲系統 智能 主題相似性 判斷模塊 網頁主題 遺傳算法 網頁 初始化模塊 自適應能力 準確度 爬蟲 鏈接存儲 爬蟲模塊 任務模塊 用戶查找 智能算法 瀏覽網頁 結果集 適應度 互聯網 應用 | ||
1.一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,包括:
初始化模塊,根據用戶提交的查找主題在互聯網上搜索起始網頁集生成種子URL集,確定交叉概率Pc、遺傳概率Pm、爬蟲深度d以及網頁適應度值的閾值;
主題相似性判斷模塊,用于確定種子URL集中各被瀏覽網頁的網頁主題,計算網頁主題與用戶查找主題相關性,并計算網頁適應度值,根據將計算得到的網頁適應度值與初始化模塊設定的網頁適應度值的閾值相比較,得到網頁適應度值較高的網頁;
任務模塊,將主題相似性判斷模塊獲得的網頁適應度值較高的網頁的鏈接存儲到URL結果集中,并根據URL結果集生成待爬取任務
爬蟲模塊,利用初始化模塊確定的爬蟲深度d初始化后,不斷從URL結果集獲取任務模塊生成的待爬取任務,然后發送http請求,下載指定的網頁鏈接到本地抓取相應網頁數據直到URL結果集為空時,終止整個循環。
2.如權利要求1所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述主題相似性判斷模塊和所述爬蟲模塊在不同進程或線程中進行。
3.如權利要求1所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述主題相似性判斷模塊包括:
瀏覽單元,用于瀏覽所述初始化模塊中的種子URL集;
解析單元,用于對種子URL集進行解析,分別從內容重要性和鏈接權重方面對網頁進行解析,計算所述網頁適應度值。
4.如權利要求3所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述解析單元分別采用PageRank算法和貝葉斯分類算法計算網頁鏈接的權重和網頁內容的重要程度。
5.如權利要求3所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述主題相似性判斷模塊同時啟用多個線程進行網頁解析。
6.如權利要求1所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述任務模塊包括:
選擇單元,用于根據所述初始化模塊設置的網頁適應度值的閾值從種子URL集中選擇出具有較高網頁適應度值的網頁鏈接存儲到URL結果集中;
交叉單元,用于選擇未被存儲到URL結果集中的網頁鏈接,擴大搜索范圍;
變異單元,用于重組關鍵關鍵字,選擇由交叉單元獲得的網頁鏈接進行重新檢索。
7.如權利要求6所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述交叉單元根據所述交叉概率Pc在已瀏覽的初始網站鏈接中提取的網站鏈接按主題相似度降序排列選出前m×Pc個網站鏈接作為所述URL結果集。
8.如權利要求1所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述任務模塊采用MongoDB數據庫存儲所述URL結果集,同時,采用Set或者Hash Set數據結構進行保存網頁鏈接。
9.如權利要求1所述的一種基于遺傳算法的智能聚焦爬蟲系統,其特征在于,所述爬蟲深度d與所述URL結果集中設置的存儲數量有關。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910072237.3/1.html,轉載請聲明來源鉆瓜專利網。





