[發明專利]一種網頁內容自動采集方法有效
| 申請號: | 201510369634.9 | 申請日: | 2015-06-30 |
| 公開(公告)號: | CN104933168B | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 沈文凱;瞿偉;劉樓;汪洋 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 楊海軍 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 自動 采集 方法 | ||
本發明公開了一種網頁內容自動采集方法,包括:根據需要進行內容采集的網頁URL查找與該網頁所在網站相匹配的采集器集合;當存在相匹配的采集器時,執行采集器,獲取網頁內容;當不存在相匹配的采集器時,查找未匹配采集器集合,從未匹配采集器集合中選擇采集器并執行采集器,獲取網頁內容;采集成功后,輸出網頁內容的采集結果;當采集不成功時,重新選擇采集器。本發明中的網頁自動采集系統框架,支持擴展其它多個網頁采集器,極大的提高了系統的可維護性,降低了維護成本與風險,優化了采集系統結構,簡化采集處理流程,為大規模采集系統提供了新的高效解決方案。
技術領域
本發明公開了一種網頁內容自動采集方法,涉及互聯網數據處理技術領域。
背景技術
隨著科技的進步,互聯網信息進入一個爆炸式、多元式的時代,互聯網成為一個巨大的信息庫,互聯網信息采集可以使您在信息采集、資源整合、資金利用、人力投入等方面節約大量資源,廣泛應用于行業門戶網站信息采集、競爭對手情報數據搜集、網站內容系統建設、垂直搜索、輿情監測、科研等領域。
以新聞網頁為例,常規的新聞網頁內容采集程序工作時,依賴于人工提供每個不同新聞站點的頁面解析模板,格式定義文件中定義了新聞網頁中所有有效數據項的xpath,如新聞標題、正文、作者、發表時間。維護新聞站點頁面解析模板是非常枯燥的,而且如果采集程序覆蓋的站點越多,工作量越大。而且若新聞站點改版后,原有的頁面解析模板文件也就隨之‘過期’,需要重新訂制,但是往往很難及時發現并重新訂制,導致一旦某個新聞站點改版,那么在發現之前,這些新聞站點的數據都將異常甚至丟失。
現有的新聞站點因為格式多樣化,數據量爆炸式膨脹,監控嚴格等,導致收集難度加大,主要表現在:
1、需要人工配置新聞網頁解析模板,制定對應信息的xpath。
2、網站的海量信息抓取,規則難以統一制定。一般會針對每個站點單獨配置解析模板,工作量大;
3、后繼帶來了海量的規則維護工作,以及站點改版后規則要實時更新的問題;
4、若不能夠及時發現新聞站點改版,那么采集這些新聞站點的數據將會出現異常。
現有常規新聞網頁采集都需要通過針對所有站點訂制解析模板,所有的訂制和后繼維護工作繁瑣而枯燥,且若不能及時適應站點的改版,導致無法有效采集數據,對于大型的采集系統這些問題尤為突出,急需通過新的技術方法來取代人工的維護工作。
發明內容
本發明所要解決的技術問題是:針對現有技術的缺陷,提供一種網頁內容自動采集方法,通過可擴展的方式,支持多種類型的網頁通用采集器,每個網頁通用采集器都是以不同的算法實現頁面通用采集,而算法則是通過網頁的共同特征抽象而來。
本發明為解決上述技術問題采用以下技術方案:
一種網頁內容自動采集方法,具體步驟包括:
步驟一、根據需要進行內容采集的網頁URL查找與該網頁所在網站相匹配的采集器集合;
步驟二、當存在相匹配的采集器時,執行采集器,獲取網頁內容;當不存在相匹配的采集器時,查找未匹配采集器集合,從未匹配采集器集合中選擇采集器并執行采集器,獲取網頁內容;
步驟三、采集成功后,輸出網頁內容的采集結果;當采集不成功時,返回步驟二,重新選擇采集器。
作為本發明的進一步優選方案,所述步驟二中,采集器的識別流程包括:
1、訪問目標網頁頁面,并獲取頁面字節流;
2、將字節流解析成dom對象,將dom中所有Element對應html標簽,記錄html標簽的所有屬性和值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510369634.9/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





