日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種網頁內容自動采集方法有效

專利信息
申請號: 201510369634.9 申請日: 2015-06-30
公開(公告)號: CN104933168B 公開(公告)日: 2018-08-14
發明(設計)人: 沈文凱;瞿偉;劉樓;汪洋 申請(專利權)人: 南京烽火星空通信發展有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 南京經緯專利商標代理有限公司 32200 代理人: 楊海軍
地址: 210019 江蘇省南京市建*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 網頁 內容 自動 采集 方法
【權利要求書】:

1.一種網頁內容自動采集方法,其特征在于,具體步驟包括:

步驟一、根據需要進行內容采集的網頁URL查找與該網頁所在網站相匹配的采集器集合;

步驟二、當存在相匹配的采集器時,執行采集器,獲取網頁內容;當不存在相匹配的采集器時,查找未匹配采集器集合,從未匹配采集器集合中選擇采集器并執行采集器,獲取網頁內容;

采集器的識別流程包括:

步驟1、訪問目標網頁頁面,并獲取頁面字節流;

步驟2、將字節流解析成dom對象,將dom中所有Element對應html標簽,記錄html標簽的所有屬性和值;

步驟3、通過dom對象中的title節點,確認標題范圍,其中,所述title節點的Xpath為://HTML/HEAD/TITLE;

再通過查找h節點,比對title節點,確認網頁的標題xpath,其中,所述h節點的Xpath為://BODY//*[name()='H*'];

當title節點的值包含h節點的值時,h節點即為網頁的標題節點,h節點的xpath即為網頁標題的xpath;

步驟 4、以h節點為起點,查找發表時間節點;

步驟 5、以h節點為起點,掃描h節點的祖父節點對應的所有子節點,查找文本值長度最長的節點,將其確定為網頁正文節點;

步驟 6、確認作者節點,用“作者節點特征匹配”方式以h節點為起點,掃描h節點的父節點的所有子節點,匹配子節點的文本值是否符合作者節點特征,若符合,則確認該子節點為作者節點;

當使用“作者節點特征匹配”方式沒有成功確認作者節點時,則使用“位置猜測”方式確認作者節點:

以發表節點為起點,分析發表節點在其兄弟節點中的位置,來確定作者節點:

a、若發表節點的兄弟節點有多個,且發表節點在所述多個節點中排名在一半之前,則確定發表節點的下一個兄弟節點就是作者節點;

b、若發表節點的兄弟節點有多個,且發表節點在所述多個節點中排名在一半之后,則確定發表節點的前一個兄弟節點就是作者節點;

步驟 7、根據網頁的標題、發表時間節點、正文節點和作者節點,識別出網頁內容相匹配的采集器;

步驟三、采集成功后,輸出網頁內容的采集結果;當采集不成功時,返回步驟二,重新選擇采集器。

2.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟4中發表時間節點的確認具體方法為:

從h節點的所有子節點中查找時間節點,若查找到,則完成發表時間節點的確認;

否則,繼續從h節點的所有兄弟節點及其所有子節點中查找時間節點,若查找到,則完成發表時間節點的確認。

3.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟4中發表時間節點的確認算法具體為:

通過常用時間格式正則表達式來匹配節點的值,若能夠匹配命中,則該節點即確認為發表時間節點。

4.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟5確定網頁正文節點的過程中,還包括對所有節點按照噪音節點標準進行去噪處理,將不合理的節點排除,所述噪音節點標準具體為:

(1)凡節點的值中含有javaScript特征的節點;

(2)凡節點的值中含有的標點符號數量小于設定閾值的節點。

5.如權利要求1所述的一種網頁內容自動采集方法,其特征在于,所述步驟6中作者節點的判斷方法包括:

1)節點的值中含有設定的特征字符串,包括“作者:”、“來源:”或者“責任編輯:”;

2)節點的值長度小于閾值。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201510369634.9/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲国产精品日本| 日韩精品中文字| 欧美精品日韩精品| 日韩国产精品一区二区| 久久婷婷国产综合一区二区| 国产三级精品在线观看| 精品国产一级| 三上悠亚亚洲精品一区二区| 亚洲国产精品一区二区久久,亚洲午夜| 视频一区欧美| 欧美日韩激情一区| 亚洲乱码一区二区| 91亚洲国产在人线播放午夜| 精品久久小视频| 一区二区中文字幕在线| 国产一区日韩一区| 高清国产一区二区 | 亚洲国产精品97久久无色| 国产一区二区午夜| 午夜av电影网| 久久九精品| 国产一区日韩欧美| 久久久久亚洲精品视频| 国产九九九精品视频| 四虎国产精品永久在线| 国产综合亚洲精品| 午夜av电影网| 亚洲国产欧美国产综合一区| 99久久国产综合精品女不卡| 久久久久久国产一区二区三区| 在线观看黄色91| 伊人欧美一区| 日韩精品一区二区三区不卡| 狠狠色噜噜狠狠狠狠2021免费| 91丝袜国产在线播放| 7777久久久国产精品| 亚洲欧美另类国产| 97人人澡人人爽91综合色| 欧美在线视频一二三区| 国内少妇偷人精品视频免费| 亚洲精品久久在线| 日本一区二区电影在线观看| 免费久久99精品国产婷婷六月| 欧美日韩国产在线一区二区三区| 热re99久久精品国99热蜜月| 国产国产精品久久久久| 国产一区二区三区精品在线| 国产一区二区三级| 色综合久久久久久久粉嫩| 午夜裸体性播放免费观看| 国产亚洲精品久久网站| 欧美一区二区三区久久久精品| 日韩精品人成在线播放| 亚洲精品国产一区| 国产精品9区| 国产一区二区三区中文字幕| 欧洲国产一区| 久久国产欧美日韩精品| 挺进警察美妇后菊| 国产在线播放一区二区| 日本美女视频一区二区三区| 亚洲精品久久久久中文第一暮| 狠狠色丁香久久综合频道| _97夜夜澡人人爽人人| 国产在线观看二区| 亚洲在线久久| 国产精品视频免费一区二区| 一区二区三区在线影院| 日韩午夜电影院| 狠狠躁天天躁又黄又爽| 国产免费一区二区三区四区五区| 国产精品日本一区二区不卡视频| 久久精视频| 亚洲区日韩| 国产福利精品一区| 久久久综合亚洲91久久98| 日本护士hd高潮护士| 欧美国产一区二区在线| 亚洲自偷精品视频自拍| 91片在线观看| 久久久人成影片免费观看| 爽妇色啪网|