[發(fā)明專利]基于改良云平臺(tái)的網(wǎng)頁(yè)蜘蛛主題式搜索系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011531209.2 | 申請(qǐng)日: | 2020-12-22 |
| 公開(kāi)(公告)號(hào): | CN112597369A | 公開(kāi)(公告)日: | 2021-04-02 |
| 發(fā)明(設(shè)計(jì))人: | 扆亮海 | 申請(qǐng)(專利權(quán))人: | 荊門匯易佳信息科技有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/955;G06F16/182 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 448000 湖北省荊門市*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 改良 平臺(tái) 網(wǎng)頁(yè) 蜘蛛 主題 搜索 系統(tǒng) | ||
1.基于改良云平臺(tái)的網(wǎng)頁(yè)蜘蛛主題式搜索系統(tǒng),其特征在于,主要包括:一是針對(duì)基于鏈接結(jié)構(gòu)的網(wǎng)頁(yè)分析算法HITS算法及基于VSM向量空間模型的主題相似度計(jì)算的網(wǎng)頁(yè)分析算法進(jìn)行改進(jìn),提出一種改進(jìn)的網(wǎng)頁(yè)蜘蛛模型算法,對(duì)網(wǎng)頁(yè)信息的綜合價(jià)值進(jìn)行評(píng)估;二是在對(duì)云平臺(tái)網(wǎng)頁(yè)蜘蛛進(jìn)行云平臺(tái)實(shí)現(xiàn)的過(guò)程中,提出了一種改進(jìn)的任務(wù)分配算法,兼顧均勻分配及各個(gè)爬取子結(jié)點(diǎn)負(fù)載情況,提高云平臺(tái)網(wǎng)頁(yè)蜘蛛系統(tǒng)的爬取放率和準(zhǔn)確性;三是提出一種基于Hadoop的云平臺(tái)網(wǎng)頁(yè)蜘蛛的總體框架模型,在文件系統(tǒng)HDFS上設(shè)計(jì)實(shí)現(xiàn)了云平臺(tái)網(wǎng)頁(yè)蜘蛛的存儲(chǔ)結(jié)構(gòu),并基于模塊劃分對(duì)各個(gè)功能模塊進(jìn)行MapReduce算法實(shí)現(xiàn);四是實(shí)現(xiàn)基于Hadoop的云平臺(tái)網(wǎng)頁(yè)蜘蛛系統(tǒng)并進(jìn)行測(cè)試;
本發(fā)明的云平臺(tái)網(wǎng)頁(yè)蜘蛛系統(tǒng)的基本執(zhí)行流程為:
第一,用戶根據(jù)想要獲得的關(guān)聯(lián)主題信息挑選一些質(zhì)量較高的初始URL種子集合并放入到種子URL文件中,初始URL種子集合作為系統(tǒng)添加搜索的起點(diǎn),系統(tǒng)挑選種子URL文件中的URL鏈接進(jìn)行網(wǎng)頁(yè)信息的爬取;
第二,系統(tǒng)在獲得相應(yīng)的URL鏈接之后,與URL鏈接所對(duì)應(yīng)的Web服務(wù)器進(jìn)行網(wǎng)絡(luò)連接,若網(wǎng)絡(luò)連接建立失敗且等待超過(guò)一定的時(shí)間,系統(tǒng)放棄該網(wǎng)絡(luò)連接并標(biāo)記此URL鏈接,從URL鏈接隊(duì)列中選擇下一個(gè)URL鏈接進(jìn)行訪問(wèn);
第三,如果和Web服務(wù)器成功建立了網(wǎng)絡(luò)通信,系統(tǒng)應(yīng)用MapReduce云平臺(tái)計(jì)算模型基于http協(xié)議對(duì)網(wǎng)頁(yè)內(nèi)的信息進(jìn)行爬取,并將爬取得到的信息存儲(chǔ)到文件系統(tǒng)HDFS中;
第四,在網(wǎng)頁(yè)爬取完成后,系統(tǒng)對(duì)網(wǎng)頁(yè)信息進(jìn)行進(jìn)一步的分析,把解析得到的網(wǎng)頁(yè)內(nèi)容信息存儲(chǔ)在文件系統(tǒng)HDFS中的解析網(wǎng)頁(yè)庫(kù)中;
第五,將網(wǎng)絡(luò)頁(yè)面中包含的URL鏈接解析出來(lái)進(jìn)行鏈接的去重過(guò)濾操作;
第六,將經(jīng)過(guò)鏈接去重過(guò)濾后的URL鏈接存儲(chǔ)在文件系統(tǒng)HDFS中的鏈出URL庫(kù)中,以便以后的爬取工作的進(jìn)行;
第七,若沒(méi)有滿足網(wǎng)頁(yè)蜘蛛停止的條件,系統(tǒng)根據(jù)改進(jìn)的網(wǎng)頁(yè)蜘蛛模型對(duì)每個(gè)URL鏈接進(jìn)行綜合價(jià)值的評(píng)估,選擇一個(gè)優(yōu)先級(jí)最高的URL鏈接即和指定的主題最相關(guān)的網(wǎng)頁(yè)進(jìn)行下一步的爬取工作;
改進(jìn)的網(wǎng)頁(yè)蜘蛛模型主要設(shè)計(jì)為:
第1,云平臺(tái)網(wǎng)頁(yè)蜘蛛系統(tǒng)給定一個(gè)種子URL集合,然后URL切分模塊提取出種子URL集合中的URL鏈接進(jìn)行URL切分操作,再然后存放在云平臺(tái)文件系統(tǒng)HDFS中的未抓取URL庫(kù)中;
第2,網(wǎng)頁(yè)抓取模塊從未抓取URL庫(kù)中讀取相應(yīng)的URL鏈接進(jìn)行爬取,并將抓取到的網(wǎng)頁(yè)信息存放到位于云平臺(tái)文件系統(tǒng)HDFS中的Web初始網(wǎng)頁(yè)庫(kù)中;
第3,網(wǎng)頁(yè)解析模塊將網(wǎng)絡(luò)頁(yè)面中包含的URL鏈接解析出來(lái)并存儲(chǔ)在云平臺(tái)文件系統(tǒng)HDFS中的鏈出URL庫(kù)中,并把解析得到的網(wǎng)頁(yè)內(nèi)容信息存儲(chǔ)在云平臺(tái)文件系統(tǒng)HDFS中的解析網(wǎng)頁(yè)庫(kù)中;
第4,超鏈接評(píng)價(jià)器讀取云平臺(tái)文件系統(tǒng)HDFS中的鏈出URL庫(kù),基于HITS算法計(jì)算每一個(gè)URL鏈接的Hub權(quán)重值及Authority權(quán)重值,與此同時(shí),構(gòu)建主題描述矩陣并由主題描述矩陣和主題網(wǎng)頁(yè)集合求得主題的向量表示形式,結(jié)合詞頻統(tǒng)計(jì)信息和內(nèi)容結(jié)構(gòu)信息對(duì)網(wǎng)頁(yè)進(jìn)行向量表示,對(duì)主題向量和網(wǎng)頁(yè)向量使用余弦?jiàn)A角定理求得關(guān)聯(lián)度值,頁(yè)面關(guān)聯(lián)度評(píng)價(jià)器基于關(guān)聯(lián)的主題特征詞庫(kù)將解析得到的網(wǎng)頁(yè)內(nèi)容信息進(jìn)行分詞處理并統(tǒng)計(jì)特征主題詞頻之后,基于VSM向量空間模型對(duì)網(wǎng)頁(yè)內(nèi)容的主題關(guān)聯(lián)度進(jìn)行計(jì)算;
第5,網(wǎng)頁(yè)蜘蛛綜合價(jià)值評(píng)價(jià)器采取改進(jìn)后的網(wǎng)頁(yè)蜘蛛模型算法基于鏈接價(jià)值和內(nèi)容主題關(guān)聯(lián)度價(jià)值計(jì)算每一個(gè)URL鏈接的綜合價(jià)值,對(duì)待爬取隊(duì)列中的網(wǎng)頁(yè)鏈接進(jìn)行比較,確定網(wǎng)頁(yè)蜘蛛下一步爬取URL的次序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于荊門匯易佳信息科技有限公司,未經(jīng)荊門匯易佳信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011531209.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)





