[發明專利]一種基于關鍵字的定向網頁采集方法有效
| 申請號: | 201710224022.X | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107169020B | 公開(公告)日: | 2019-12-10 |
| 發明(設計)人: | 徐小龍;楊春春 | 申請(專利權)人: | 深圳市東晟數據有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35;G06F16/33;G06F17/27 |
| 代理公司: | 44384 深圳市中科創為專利代理有限公司 | 代理人: | 譚雪婷;彭西洋 |
| 地址: | 518000 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵字 定向 網頁 采集 方法 | ||
本發明涉及一種基于關鍵字的定向網頁采集方法,引入了文本加權算法為關鍵詞設置權重,結合空間向量模型算法計算網頁主題相關度,并且利用網頁鏈接結構與主題相關度來評判網頁的重要性。根據文本聚類算法將相關主題網頁文檔聚集在一起,利用樸素貝葉斯算法計算出待抓取的網頁屬于主題文檔的概率。設置適應度函數篩選與主題相關的網頁,依據網頁的實時抓取情況動態的調整系統模型。本文基于分布式平臺,結合開源網絡采集架構,利用自適應主題算法實現對主題網頁的定向抓取。采用分布式技術實現并行化抓取網頁,充分利用各個節點計算資源,提高了網頁的抓取速率。
技術領域
本發明涉及一種基于關鍵字的定向網頁采集方法,屬于主題網絡爬蟲、分布式計算的交叉技術領域。
背景技術
隨著電子計算機、存儲設備、移動通信網絡等信息技術的快速發展,移動互聯網、社交網絡、物聯網等迅速普及,導致互聯網平臺數據量的迅速增長,大數據時代已經來臨。據統計,截止2016年3月中旬,全球范圍內,僅互聯網上可知網頁(不含隱含網頁)總數已經超過46億個,如何對網絡數據的高效采集就顯得尤為重要。
數據采集是后續的數據挖掘、分析與決策的前提,網絡數據采集的抓取效率直接決定著數據處理的效果,因此高效、精準的采集與主題相關的數據已經成為研究熱點。高性能的主題網絡采集必須考慮兩方面:一方面是系統具有精準的定向主題采集策略,盡可能多的抓取與主題相關的網頁,減少與主題無關的網頁的采集;另一方面系統具有高度優化的整體架構性,方便管理并且具有高效的可擴展性,能夠實現分布式的網頁采集。
隨著數據量的增大,導致數據的采集和處理均需要實現分布式并行化,采用分布式技術可以有效提高數據抓取的速率。一種典型的分布式數據采集及處理平臺,利用并行處理數據運算,產生了一種基于云平臺的完全分布式平臺,平臺能夠實現分布式網絡數據的抓取、索引以及檢索。像百度和谷歌等流行的很多商業通用搜索引擎,查詢結果通常都是考慮廣泛性而忽略了針對性,與面向特定領域的主題搜索引擎比較的話,專業針對性較弱,對采集結果的過濾和后期排序的相關度還有待提高。
在傳統的面目前的網絡數據定向采集技術主要存在以下問題:(1)主題爬蟲在保存網頁之前需要對頁面相關性進行判別,只保存與主題相關的網頁。目前主題判別方法多是基于分類器的方法,分類器的準確率和效率都很低,難以實現對主題網頁的準確抓取。(2)基于鏈接結構的主題采集算法主要問題是計算出的鏈接價值與主題的相關性較小,容易造成“主題漂移”,采集與主題無關的網頁,并且基于鏈接內容評價的主題搜索策略搜索效率偏低。(3)目前的分布式定向數據采集系統,節點與節點之間需要進行頻繁通信,并且系統的可擴展性不高。
發明內容
本發明所要解決的技術問題是提供一種基于關鍵字的定向網頁采集方法,不僅提高了采集主題網頁的準確率,而且具有系統可擴展性強的優點,能夠適用于分布式大規模網頁的快速采集,而且采集方法能夠較好的適用于分布式主題的環境下,并且算法的復雜度較低。
本發明為了解決上述技術問題采用以下技術方案:本發明設計了一種基于關鍵字的定向網頁采集方法,用于在指定網頁數據集中,查找與指定主題關鍵字相關的網頁,其特征在于,包括如下步驟:
步驟1.判斷指定網頁數據集中的網頁個數是否小于預設最大待采集爬行頁面數,是則進入步驟6,否則進入步驟2;
步驟2.在指定網頁數據集中隨機提取最大待采集爬行頁面數量的網頁,作為待處理網頁,通過步驟3,獲得各個待處理網頁分別與指定主題關鍵字的相關概率,然后進入步驟4;
步驟3.分別針對各個待處理網頁,分別執行如下步驟301至步驟302,獲得各個待處理網頁分別與指定主題關鍵字的相關概率;
步驟301.針對待處理網頁的正文進行分詞操作,構建該待處理網頁正文所對應的分詞集;
步驟302.根據該待處理網頁正文所對應分詞集中的各個分詞,采用樸素貝葉斯算法計算獲得該待處理網頁與指定主題關鍵字的相關概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市東晟數據有限公司,未經深圳市東晟數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224022.X/2.html,轉載請聲明來源鉆瓜專利網。





