[發明專利]一種基于內容分析的web數據采集方法在審
| 申請號: | 201510730014.3 | 申請日: | 2015-11-02 |
| 公開(公告)號: | CN105426407A | 公開(公告)日: | 2016-03-23 |
| 發明(設計)人: | 武斌;張志華 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 分析 web 數據 采集 方法 | ||
1.一種基于內容分析的web數據采集方法,其特征在于具體步驟為
①從HDFS待采集的網頁URL庫中獲取待爬取URL集,對輸入進來的URL級執行Split過程,將URL集合分片,分別送到集群各個節點上執行Map操作,將采集來的原始網頁進行網頁存儲;
②從臨時文件獲取鍵值對,執行Reduce操作,從原始網頁庫中取出原始網頁,進行解析,提取出新的URL然后存儲進鏈出URL庫;
③將從HDFS獲取原始網頁作為參數輸入,執行Split過程將輸入原始網頁分片,將各個分片分配到各節點執行Map操作;已采集的URL從鏈出URL庫獲得新URL;
④獲取解析出的URL,通過與已采集URL庫做比較,過濾掉已經爬取過的網頁,將符合條件的集合輸出到HDFS;
⑤判斷是否符合結束條件,如果符合,結束程序,如果不符合,將過濾后符合條件的URL存入待采集URL庫,網頁抓取模塊繼續抓取,循環執行。
2.根據權利要求1所述的一種基于內容分析的web數據采集方法,其特征在于所述步驟①中將URL集合分片,分別送到集群各個節點上,利用MapReduce進行Map操作。
3.根據權利要求2所述的一種基于內容分析的web數據采集方法,其特征在于所述步驟②中利用MapReduce執行Reduce操作。
4.根據權利要求1或3所述的一種基于內容分析的web數據采集方法,其特征在于所述步驟③中將原始網頁的各個分片分配到各節點利用MapReduce執行Map操作。
5.根據權利要求4所述的一種基于內容分析的web數據采集方法,其特征在于所述步驟④中利用MapReduce執行Reduce操作,獲取解析出的URL。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510730014.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:拉科酰胺中間體化合物及其制備方法和應用
- 下一篇:處理方法與設備
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





