[發明專利]基于改良云平臺的網頁蜘蛛主題式搜索系統在審
| 申請號: | 202011531209.2 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112597369A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 扆亮海 | 申請(專利權)人: | 荊門匯易佳信息科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/182 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 448000 湖北省荊門市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改良 平臺 網頁 蜘蛛 主題 搜索 系統 | ||
本發明提供的基于改良云平臺的網頁蜘蛛主題式搜索系統,針對基于鏈接結構的網頁分析算法HITS算法及基于VSM向量空間模型的主題相似度計算的網頁分析算法進行改進,提出了改進的網頁蜘蛛模型算法,提出了基于Hadoop云平臺網頁蜘蛛的總體框架模型,在文件系統HDFS上設計實現了云平臺網頁蜘蛛的存儲結構,并基于模塊劃分對各個功能模塊進行MapReduce算法實現;提出了改進的任務分配算法,能夠兼顧均勻分配及各個爬取子結點負載情況,提高了云平臺網頁蜘蛛系統的爬取效率和準確性;結果表明本發明提出并實現的基于Hadoop的云平臺網頁蜘蛛系統是可行且有效的,能夠大幅提高主題式搜索的準確性及效率,能夠全面、快速、準確的檢索主題關聯信息。
技術領域
本發明涉及一種網頁蜘蛛主題式搜索系統,特別涉及一種基于改良云平臺的網頁蜘蛛主題式搜索系統,屬于主題式搜索系統技術領域。
背景技術
隨著互聯網技術的日益普以及和飛速發展,面對如此龐大而又種類繁多的信息數據,通用的搜索引擎作為獲得信息的主要手段已經遠遠不能滿足人們對特定領域或主題關聯信息的檢索需求。鑒于此,針對特定領域或主題的主題式搜索引擎及網頁蜘蛛技術得到了廣泛應用,但隨著網絡信息量呈指數級增長,僅依賴單臺計算機進行爬取的傳統網頁蜘蛛已不能適應大數據環境下的主題式搜索對性能、可擴展性方面的需求,而Hadoop云平臺計算框架能很好的解決這個問題。
近年來,有關主題型搜索引摯的研發正在成為熱點,主題式搜索引擎專業化個性化和針對性強的特點使其成為目前搜索引擎領域中的熱點和趨勢,現有技術出現了一些主題式搜索引擎,有道是網易公司結束與谷歌的合作后自行研發的搜索引擎,它提供了視頻、網頁、音樂、詞典等不同主題的搜索,其中最具特點的是詞典主題式搜索,對用戶輸入的關鍵詞英漢互譯,有基本釋義、網絡釋義,大量的雙語例句并提供標準發音朗讀。Scirus是專門用于科技信息檢索的世界上最全面的科技搜索引擎,其既可以搜索網站,也可以搜索期刊資源,而且專注于科技方面的內容,Scirus基本檢索類似于一般的搜索引擎,并且支持與或者非等操作,高級檢索可按不同的字段進行檢索。但另一方面,隨著網絡信息量呈指數級增長,僅依賴單臺計算機進行爬取的傳統網頁蜘蛛已不能適應大數據環境下的主題式搜索對性能、可擴展性等方面的需求。
另外現有技術的開源蜘蛛,例如Larbin是一個單一的蜘蛛,它設計簡單只爬取頁面,用戶可自行對一些爬取參數進行配置,爬行性能較好,但它既不關注頁面分析,也不關注數據存儲等,容易造成去重誤判;WebLech是一個Web站點下載與鏡像工具,它盡可能標準的模仿Web瀏覽器的行為,按功能需求采用多線程來下載Web網站;開源產品Heritrix,它使用深度遍歷網頁的方法,將非文本內容不做判斷的完整抓取,但該蜘蛛控制參數多,配置較麻煩,且對中文支持不夠好。
隨著互聯網的進一步發展,云平臺對海量數據的計算能力更待進一步提升,當谷歌公開發表了其產品架構,及其云平臺文件系統GFS,高性能云平臺計算模型MapReduce相關研究后,Nutch搜索引擎在分析了GFS后,提出了自己的云平臺文件系統NDFS,然后將MapReduce云平臺計算模型引入Nutch開發中實現,Hadoop是從Nutch項目中移出的主要使用MapReduce云平臺計算模型進行大規模計算的一個框架,Hadoop云平臺框架的提出,使得對海量數據的處理及云平臺計算的實現變得便捷高效。
綜上所述,現有技術主題式搜索系統的缺點主要包括:
第一,面對互聯網如此龐大而又種類繁多的信息數據,通用的搜索引擎作為獲得信息的主要手段已經遠遠不能滿足人們對特定領域或主題關聯信息的檢索需求,針對特定領域或主題的主題式搜索引擎及網頁蜘蛛技術得到了廣泛應用,但隨著網絡信息量呈指數級增長,僅依賴單臺計算機進行爬取的傳統網頁蜘蛛已不能適應大數據環境下的主題式搜索對性能、可擴展性方面的需求,現有技術無法很好的解決這個問題;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于荊門匯易佳信息科技有限公司,未經荊門匯易佳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011531209.2/2.html,轉載請聲明來源鉆瓜專利網。





