[發明專利]一種主題網絡爬蟲系統的構建方法有效
| 申請號: | 201110007710.3 | 申請日: | 2011-01-14 |
| 公開(公告)號: | CN102073730A | 公開(公告)日: | 2011-05-25 |
| 發明(設計)人: | 寧慧;吳昊;談亞洲;吳悅;呂志龍 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 網絡 爬蟲 系統 構建 方法 | ||
1.一種主題網絡爬蟲系統的構建方法,其特征是:
(1)定義主題初始描述向量,設定相關度初始閥值,設定初始化URL隊列;
(2)爬蟲從初始URL隊列中依次獲取URL進行爬取;
(3)對URL進行文本分析;
(4)對URL進行鏈接分析;
(5)結合文本分析與鏈接分析的結果計算URL與主題的相關度;
(6)將相關度大于相關度閾值的URL加入有序的URL隊列,URL依照與主題向量的相關度高低排序,相關度高的排在前面,相關度低的排在后面,主題爬蟲先爬取隊列中相關度高的網頁,然后爬取相關度低的網頁,依次爬取,直至隊列為空,對于每個爬到的網頁,提取其中的子URL,返回到步驟(3);
(7)使用遺傳算法對隊列中相關度最高的前N篇進行遺傳算法最優化,選出最優特征;
(8)將遺傳算法返回的最優特征送入Rocchio反饋模塊對主題向量更新,并動態調整相關度閾值,繼續爬取網頁。
2.根據權利要求1所述的一種主題網絡爬蟲系統的構建方法,其特征是運用遺傳算法和Rocchio算法對用戶主題模板進行自適應更新的方法為:
1)按照編碼策略對偽相關反饋文檔進行浮點數編碼;
2)定義適應度函數Fitness;
3)確定交叉概率Pc和變異概率Pm等遺傳參數;
4)初始化生成群體P;
5)計算群體中每個個體適應度值Fitness,并得到群體適應度均值AVG;
6)按照遺傳策略,運用選擇、擴展、交叉和變異算子作用于群體,形成下一代群體;
7)判斷新一代群體適應度均值newAVG是否小于AVG,或者已完成預定迭代次數,不滿足則返回6),或者修改遺傳策略再返回6),若滿足條件則結束;
8)將適應度函數值最好的結果指定為遺傳算法的結果,作為送入Rocchio反饋模塊的正例質心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110007710.3/1.html,轉載請聲明來源鉆瓜專利網。





