[發(fā)明專利]一種基于遺傳算法的智能聚焦爬蟲系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910072237.3 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109815388A | 公開(公告)日: | 2019-05-28 |
| 發(fā)明(設(shè)計)人: | 王磊;倪林 | 申請(專利權(quán))人: | 東華大學(xué) |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/955 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聚焦爬蟲 爬蟲系統(tǒng) 智能 主題相似性 判斷模塊 網(wǎng)頁主題 遺傳算法 網(wǎng)頁 初始化模塊 自適應(yīng)能力 準(zhǔn)確度 爬蟲 鏈接存儲 爬蟲模塊 任務(wù)模塊 用戶查找 智能算法 瀏覽網(wǎng)頁 結(jié)果集 適應(yīng)度 互聯(lián)網(wǎng) 應(yīng)用 | ||
本發(fā)明涉及一種基于遺傳算法的智能聚焦爬蟲系統(tǒng),其特征在于,包括:初始化模塊;主題相似性判斷模塊,用于確定種子URL集中各被瀏覽網(wǎng)頁的網(wǎng)頁主題,計算網(wǎng)頁主題與用戶查找主題相關(guān)性;任務(wù)模塊,將主題相似性判斷模塊獲得的網(wǎng)頁適應(yīng)度值較高的網(wǎng)頁的鏈接存儲到URL結(jié)果集中,并根據(jù)URL結(jié)果集生成待爬取任務(wù);爬蟲模塊。本發(fā)明將智能算法應(yīng)用到爬蟲系統(tǒng)中,使爬蟲系統(tǒng)自適應(yīng)能力增強(qiáng),提高爬取信息的準(zhǔn)確度。本發(fā)明提供的智能聚焦爬蟲系統(tǒng)彌補(bǔ)了傳統(tǒng)爬蟲的不足,它是一種面向特定主題的爬蟲系統(tǒng)。智能聚焦爬蟲系統(tǒng)能夠有目的的提取互聯(lián)網(wǎng)中用戶所需要的資源。
技術(shù)領(lǐng)域
本發(fā)明涉及一種智能聚焦爬蟲系統(tǒng),屬于網(wǎng)頁搜索技術(shù)領(lǐng)域。
背景技術(shù)
當(dāng)前信息技術(shù)正在以前所未有的速度不斷發(fā)展,互聯(lián)網(wǎng)上的信息呈指數(shù)級增長,如何在海量數(shù)據(jù)中檢索出用戶需要的信息變得越來越困難。因此,搜索引擎技術(shù)應(yīng)運(yùn)而生并在人們?nèi)粘I钪衅鹬e足輕重的作用,成為從互聯(lián)網(wǎng)上獲取信息的重要途徑。通用搜索引擎在搜索信息精準(zhǔn)度方面有一定局限性,無法滿足用戶對復(fù)雜資源的需求,不能適應(yīng)用戶個性化和多樣化的需要。因此,垂直搜索引擎成為未來發(fā)展趨勢。
網(wǎng)絡(luò)爬蟲則是一個自動提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)(Internet)上下載網(wǎng)頁,是搜索引擎的重要組成部分。傳統(tǒng)爬蟲是從一個種子URL開始爬取網(wǎng)頁資源,存儲種子網(wǎng)頁上的所有URL地址,不可避免的提取和存儲大量與主題無關(guān)的網(wǎng)頁,使得網(wǎng)頁搜索效率大大降低,且不能滿足人們對信息精準(zhǔn)度的要求。
發(fā)明內(nèi)容
本發(fā)明的目的是:將爬蟲系統(tǒng)與人工智能算法相結(jié)合,利用人工智能算法全面分析網(wǎng)頁結(jié)構(gòu),在一定程度上提高了預(yù)測網(wǎng)頁與主題相關(guān)度。
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種基于遺傳算法的智能聚焦爬蟲系統(tǒng),其特征在于,包括:
初始化模塊,根據(jù)用戶提交的查找主題在互聯(lián)網(wǎng)上搜索起始網(wǎng)頁集生成種子URL集,確定交叉概率Pc、遺傳概率Pm、爬蟲深度d以及網(wǎng)頁適應(yīng)度值的閾值;
主題相似性判斷模塊,用于確定種子URL集中各被瀏覽網(wǎng)頁的網(wǎng)頁主題,計算網(wǎng)頁主題與用戶查找主題相關(guān)性,并計算網(wǎng)頁適應(yīng)度值,根據(jù)將計算得到的網(wǎng)頁適應(yīng)度值與初始化模塊設(shè)定的網(wǎng)頁適應(yīng)度值的閾值相比較,得到網(wǎng)頁適應(yīng)度值較高的網(wǎng)頁;
任務(wù)模塊,將主題相似性判斷模塊獲得的網(wǎng)頁適應(yīng)度值較高的網(wǎng)頁的鏈接存儲到URL結(jié)果集中,并根據(jù)URL結(jié)果集生成待爬取任務(wù)
爬蟲模塊,利用初始化模塊確定的爬蟲深度d初始化后,不斷從URL結(jié)果集獲取任務(wù)模塊生成的待爬取任務(wù),然后發(fā)送http請求,下載指定的網(wǎng)頁鏈接到本地抓取相應(yīng)網(wǎng)頁數(shù)據(jù)直到URL結(jié)果集為空時,終止整個循環(huán)。
優(yōu)選地,所述主題相似性判斷模塊和所述爬蟲模塊在不同進(jìn)程或線程中進(jìn)行。
優(yōu)選地,所述主題相似性判斷模塊包括:
瀏覽單元,用于瀏覽所述初始化模塊中的種子URL集;
解析單元,用于對種子URL集進(jìn)行解析,分別從內(nèi)容重要性和鏈接權(quán)重方面對網(wǎng)頁進(jìn)行解析,計算所述網(wǎng)頁適應(yīng)度值。
優(yōu)選地,所述解析單元分別采用PageRank算法和貝葉斯分類算法計算網(wǎng)頁鏈接的權(quán)重和網(wǎng)頁內(nèi)容的重要程度。
優(yōu)選地,所述主題相似性判斷模塊同時啟用多個線程進(jìn)行網(wǎng)頁解析。
優(yōu)選地,所述任務(wù)模塊包括:
選擇單元,用于根據(jù)所述初始化模塊設(shè)置的網(wǎng)頁適應(yīng)度值的閾值從種子URL集中選擇出具有較高網(wǎng)頁適應(yīng)度值的網(wǎng)頁鏈接存儲到URL結(jié)果集中;
交叉單元,用于選擇未被存儲到URL結(jié)果集中的網(wǎng)頁鏈接,擴(kuò)大搜索范圍;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東華大學(xué),未經(jīng)東華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910072237.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于錨文本的聚焦網(wǎng)絡(luò)爬蟲搜索方法及其系統(tǒng)
- 一種基于鏈接分析的聚焦爬蟲方法
- 一種基于指定電子商務(wù)網(wǎng)站的定向爬蟲的實現(xiàn)方法
- 一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法
- 面向聚焦的Web網(wǎng)頁獲取和信息抽取方法
- 基于寶藏圖的鏈接與內(nèi)容結(jié)合的聚焦網(wǎng)絡(luò)爬蟲搜索方法
- 用于海外投資風(fēng)險預(yù)警的網(wǎng)絡(luò)輿情檢測方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的聚焦爬蟲鏈接價值預(yù)測方法
- 一種基于遺傳算法的智能聚焦爬蟲系統(tǒng)
- 一種分布式爬蟲系統(tǒng)及其實現(xiàn)方法
- 一種智能爬蟲用控制設(shè)備
- 檢測反爬蟲策略安全性的方法及裝置
- 一種基于瀏覽器端的爬蟲、分布式爬蟲系統(tǒng)及方法
- 網(wǎng)絡(luò)爬蟲系統(tǒng)的測試方法及裝置、存儲介質(zhì)、電子設(shè)備
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機(jī)設(shè)備
- 一種爬蟲系統(tǒng)及方法
- 一種分布式爬蟲系統(tǒng)及其實現(xiàn)方法
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 一種異步爬蟲系統(tǒng)及數(shù)據(jù)爬取方法
- 一種分布式爬蟲調(diào)度系統(tǒng)





