[發明專利]一種網頁內容自動采集方法有效
| 申請號: | 201510369634.9 | 申請日: | 2015-06-30 |
| 公開(公告)號: | CN104933168B | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 沈文凱;瞿偉;劉樓;汪洋 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 楊海軍 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 自動 采集 方法 | ||
1.一種網頁內容自動采集方法,其特征在于,具體步驟包括:
步驟一、根據需要進行內容采集的網頁URL查找與該網頁所在網站相匹配的采集器集合;
步驟二、當存在相匹配的采集器時,執行采集器,獲取網頁內容;當不存在相匹配的采集器時,查找未匹配采集器集合,從未匹配采集器集合中選擇采集器并執行采集器,獲取網頁內容;
采集器的識別流程包括:
步驟1、訪問目標網頁頁面,并獲取頁面字節流;
步驟2、將字節流解析成dom對象,將dom中所有Element對應html標簽,記錄html標簽的所有屬性和值;
步驟3、通過dom對象中的title節點,確認標題范圍,其中,所述title節點的Xpath為://HTML/HEAD/TITLE;
再通過查找h節點,比對title節點,確認網頁的標題xpath,其中,所述h節點的Xpath為://BODY//*[name()='H*'];
當title節點的值包含h節點的值時,h節點即為網頁的標題節點,h節點的xpath即為網頁標題的xpath;
步驟 4、以h節點為起點,查找發表時間節點;
步驟 5、以h節點為起點,掃描h節點的祖父節點對應的所有子節點,查找文本值長度最長的節點,將其確定為網頁正文節點;
步驟 6、確認作者節點,用“作者節點特征匹配”方式以h節點為起點,掃描h節點的父節點的所有子節點,匹配子節點的文本值是否符合作者節點特征,若符合,則確認該子節點為作者節點;
當使用“作者節點特征匹配”方式沒有成功確認作者節點時,則使用“位置猜測”方式確認作者節點:
以發表節點為起點,分析發表節點在其兄弟節點中的位置,來確定作者節點:
a、若發表節點的兄弟節點有多個,且發表節點在所述多個節點中排名在一半之前,則確定發表節點的下一個兄弟節點就是作者節點;
b、若發表節點的兄弟節點有多個,且發表節點在所述多個節點中排名在一半之后,則確定發表節點的前一個兄弟節點就是作者節點;
步驟 7、根據網頁的標題、發表時間節點、正文節點和作者節點,識別出網頁內容相匹配的采集器;
步驟三、采集成功后,輸出網頁內容的采集結果;當采集不成功時,返回步驟二,重新選擇采集器。
2.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟4中發表時間節點的確認具體方法為:
從h節點的所有子節點中查找時間節點,若查找到,則完成發表時間節點的確認;
否則,繼續從h節點的所有兄弟節點及其所有子節點中查找時間節點,若查找到,則完成發表時間節點的確認。
3.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟4中發表時間節點的確認算法具體為:
通過常用時間格式正則表達式來匹配節點的值,若能夠匹配命中,則該節點即確認為發表時間節點。
4.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟5確定網頁正文節點的過程中,還包括對所有節點按照噪音節點標準進行去噪處理,將不合理的節點排除,所述噪音節點標準具體為:
(1)凡節點的值中含有javaScript特征的節點;
(2)凡節點的值中含有的標點符號數量小于設定閾值的節點。
5.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟6中作者節點的判斷方法包括:
1)節點的值中含有設定的特征字符串,包括“作者:”、“來源:”或者“責任編輯:”;
2)節點的值長度小于閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510369634.9/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





