日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種網頁正文及要素提取的方法和系統有效

專利信息
申請號: 201911252927.3 申請日: 2019-12-09
公開(公告)號: CN110990738B 公開(公告)日: 2021-11-26
發明(設計)人: 李兆鈞;羅啟澤;雷小平 申請(專利權)人: 創優數字科技(廣東)有限公司
主分類號: G06F16/957 分類號: G06F16/957;G06F16/958
代理公司: 北京集佳知識產權代理有限公司 11227 代理人: 郭帥
地址: 516000 廣東省廣州市海珠區*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 網頁 正文 要素 提取 方法 系統
【權利要求書】:

1.一種網頁正文及要素提取的方法,其特征在于,包括以下步驟:

S1:從同一平臺采集多個網頁,分別對單個網頁進行預處理;

S2:計算單個所述網頁的正文、發布時間、來源的提取候選路徑及其評分,得到所述網頁的網頁級提取候選路徑及評分;其中,所述網頁級提取候選路徑包括網頁級正文提取候選路徑、網頁級發布時間提取候選路徑和網頁級來源提取候選路徑;

其中,計算單個所述網頁的正文提取候選路徑及評分進一步包括:

遍歷所述網頁的DOM結構樹,對每個節點計算正文長度占比,根據所述正文長度占比降序排列,取出正文長度占比位于前K位的路徑,計算兩兩路徑之間的最大公共路徑及其綜合評分,取綜合評分最高的最大公共路徑作為所述網頁的網頁級正文提取候選路徑,K為整數;

S3:對多個網頁的所述網頁級提取候選路徑及評分進行綜合計算,得到平臺級提取候選路徑及評分;其中,所述平臺級提取候選路徑包括平臺級正文提取候選路徑、平臺級發布時間提取候選路徑和平臺級來源提取候選路徑;

S4:判斷所述平臺級提取候選路徑是否達到置信水平,如達到則作為平臺級提取路徑,生成所述平臺的要素提取器,如未達到則計算需要重新采集網頁的數量,轉去執行S1。

2.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,對每個節點計算正文長度占比進一步包括,所述正文長度占比的計算公式可以為:

正文長度占比=去除HTML標簽的文本長度/節點原始文本長度。

3.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,計算兩兩路徑之間的最大公共路徑進一步包括:從根節點開始逐個對比兩條路徑對應位置上的節點,直到出現第一個不一致的節點,取從根節點開始到當前位置前一個節點作為最大公共路徑。

4.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,計算兩兩路徑之間的綜合評分進一步包括:計算兩兩路徑之間的的路徑評分,以最大公共路徑為關鍵字匯總,對應的路徑評分作為值進行聚合,聚合方式為求平均值和最大值,對平均值和最大值求和得到每個最大公共路徑的綜合評分。

5.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,S2中計算單個所述網頁的發布時間提取候選路徑及評分進一步包括:遍歷所述網頁的DOM結構樹,對每個節點計算時間長度占比,取占比最高的路徑作為所述網頁的網頁級發布時間提取候選路徑。

6.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,S2中計算單個所述網頁的來源提取候選路徑及評分進一步包括:在所述網頁的網頁級發布時間提取候選路徑內,利用模式匹配技術提取來源內容,如在當前節點提取不到所需內容,則向上一級節點進行提取,直至達到所述網頁的網頁級發布時間提取候選路徑與網頁級正文提取候選路徑的最大公共路徑為止;如提取到所需內容,取當前所在路徑作為所述網頁的網頁級來源提取候選路徑。

7.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,S4中所述平臺級提取候選路徑的置信度進一步包括:所述平臺級正文提取候選路徑的置信度可以為:

其中,N為網頁級正文提取候選路徑的個數,NT為網頁級正文提取候選路徑與平臺級正文提取候選路徑一致的數量,Conf為平臺級正文提取候選路徑的置信度。

8.如權利要求1所述的網頁正文及要素提取的方法,其特征在于,S4中計算需要重新采集網頁的數量進一步包括:

其中,Nnew為需要重新采集網頁的數量,α為置信水平,N為網頁級正文提取候選路徑的個數,NT為網頁級正文提取候選路徑與平臺級正文提取候選路徑一致的數量。

9.一種應用了如權利要求1-8任意一項方法的網頁正文及要素提取的系統,其特征在于,包括以下部分:

網頁采集與預處理模塊:用于從同一平臺采集多個網頁,分別對單個網頁進行預處理;

網頁級處理模塊:用于計算單個所述網頁的正文、發布時間、來源的提取候選路徑及其評分,得到所述網頁的網頁級提取候選路徑及評分;其中,所述網頁級提取候選路徑包括網頁級正文提取候選路徑、網頁級發布時間提取候選路徑和網頁級來源提取候選路徑;

其中,所述網頁級處理模塊計算單個所述網頁的正文提取候選路徑及評分進一步包括:

遍歷所述網頁的DOM結構樹,對每個節點計算正文長度占比,根據所述正文長度占比降序排列,取出正文長度占比位于前K位的路徑,計算兩兩路徑之間的最大公共路徑及其綜合評分,取綜合評分最高的最大公共路徑作為所述網頁的網頁級正文提取候選路徑,K為整數;

平臺級處理模塊:用于對多個網頁的所述網頁級提取候選路徑及評分進行綜合計算,得到平臺級提取候選路徑及評分;其中,所述平臺級提取候選路徑包括平臺級正文提取候選路徑、平臺級發布時間提取候選路徑和平臺級來源提取候選路徑;

判斷模塊:用于判斷所述平臺級提取候選路徑是否達到置信水平,如達到則作為平臺級提取路徑,生成所述平臺的要素提取器,如未達到則計算需要重新采集網頁的數量,利用網頁采集與預處理模塊重新采集網頁及進行預處理。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創優數字科技(廣東)有限公司,未經創優數字科技(廣東)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201911252927.3/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美老肥婆性猛交视频| 国产欧美一区二区三区沐欲| 欧美日韩亚洲三区| 国产一区影院| 91精品福利在线| 日本一二三不卡| 国产99小视频| 91福利试看| 99国产精品免费| 久久不卡精品| 狠狠色很很在鲁视频| 日本美女视频一区二区| 91久久国语露脸精品国产高跟| 国产乱对白刺激在线视频| 91精品国产九九九久久久亚洲| 国产二区不卡| 国产v亚洲v日韩v欧美v片| 中文字幕一区二区在线播放| 激情久久一区二区| 欧美一区二区激情三区| 一区二区91| 午夜影院激情| 免费观看xxxx9999片| 国产精品日韩视频| 88国产精品视频一区二区三区| 日韩欧美视频一区二区| 中文字幕欧美另类精品亚洲| 99re国产精品视频| 少妇中文字幕乱码亚洲影视| 农村妇女精品一二区| 亚日韩精品| 91一区在线观看| 大bbw大bbw巨大bbw看看| 久久99久国产精品黄毛片入口| yy6080影院旧里番乳色吐息| 日韩午夜一区| 欧美一级免费在线视频| 中文在线一区二区三区| 色午夜影院| 毛片大全免费看| 久久精品国产综合| 88888888国产一区二区| 欧美在线一级va免费观看| 久久91久久久久麻豆精品| 午夜一级免费电影| 亚洲va欧美va国产综合先锋| 欧美高清性xxxxhd| 亚洲无人区码一码二码三码| 欧美三区二区一区| 国产伦精品一区二区三区免费优势| 国产91免费在线| 亚洲综合日韩精品欧美综合区| 国产精品美女久久久免费| 久久一区欧美| 国产99久久九九精品免费| 久久午夜精品福利一区二区| 日韩午夜三级| 国产中文字幕91| 狠狠色噜狠狠狠狠| 国产免费一区二区三区网站免费| 国产精品一区二区av麻豆| 欧美日韩中文字幕一区二区三区| 综合国产一区| 一区二区三区在线影院| 国产精品亚洲二区| 久久99国产综合精品| 欧美乱妇高清无乱码| 国产精品久久久综合久尹人久久9| 日韩精品免费一区二区中文字幕| 日韩午夜电影院| 国内少妇偷人精品视频免费| 中文字幕一区二区三区不卡| 午夜国产一区| 欧美一区二区在线不卡| 亚洲精品久久久久中文字幕欢迎你 | 曰韩av在线| 99精品视频一区| 国产乱码精品一区二区三区介绍| 国产欧美一区二区三区沐欲| 欧美亚洲另类小说| 久久国产麻豆| 一级女性全黄久久生活片免费| 日韩午夜三级| 久久99精品久久久久国产越南| 午夜特片网| 精品999久久久| 91精品啪在线观看国产线免费| 99久久婷婷国产精品综合| 欧美一区二区三区精品免费| 国产精品国产三级国产专区53| 中文字幕制服狠久久日韩二区| 日本一区二区电影在线观看 | 久久不卡精品| 91精品久久久久久久久久| 精品国产一区二区三区免费| 狠狠色成色综合网| 日本三级韩国三级国产三级| 国产视频一区二区在线| 久久一区二区三区欧美| 亚洲四区在线| 欧美精品九九| 少妇中文字幕乱码亚洲影视| 亚洲精品日日夜夜| 久久国产精品二区| 狠狠色狠狠色很很综合很久久| 人人要人人澡人人爽人人dvd| 欧美精品乱码视频一二专区 | 久久99国产精品久久99| 97国产精品久久久| 亚洲欧美制服丝腿| 国产精品高清一区| 一区二区在线视频免费观看| 国产精品久久久不卡| 午夜激情免费电影| 日韩欧美高清一区二区| 久久久久国产精品视频| 另类视频一区二区| 狠狠色噜噜狠狠狠狠综合久| 国产欧美日韩一区二区三区四区| 国产精品爽到爆呻吟高潮不挺| 欧洲另类类一二三四区| 99视频国产在线| 亚洲精品主播| 中文字幕在线播放一区| 69精品久久| 肥大bbwbbwbbw高潮| 女人被爽到高潮呻吟免费看| 国产日韩欧美三级| 国产在线视频99| 丰满岳乱妇bd在线观看k8| 午夜电影网一区| 91精品国模一区二区三区| 亚洲综合日韩精品欧美综合区| 一区不卡av| 欧美国产一区二区三区激情无套| 丰满岳乱妇在线观看中字| 久久综合二区| 亚洲精品老司机| 黄色av免费| 精品国产乱码久久久久久a丨| 国产清纯白嫩初高生视频在线观看| 国产乱xxxxx国语对白| 国产精品二十区| 视频二区一区国产精品天天| 午夜av资源| 午夜欧美影院| 午夜国产一区二区| 91精品综合在线观看| 亚洲精品97久久久babes| 日韩一区高清| 国产视频一区二区不卡 | 欧美乱偷一区二区三区在线 | 91一区二区在线观看| 粉嫩久久久久久久极品| 激情久久影院| 国产午夜精品一区二区三区欧美| 麻豆91在线| 国产在线欧美在线| 日韩精品免费一区二区三区| 国产二区不卡| 一区二区中文字幕在线观看| 午夜毛片在线| 亚洲精品国产一区| 国产欧美视频一区二区三区| 国产一区二区视频免费在线观看| 国产一区欧美一区| 国产一级一区二区| 国产精品亚州| 久久久久亚洲精品| 一区二区国产盗摄色噜噜| 丰满岳妇伦4在线观看| 欧美一区二区三区免费播放视频了| 亚洲欧美制服丝腿| 激情欧美一区二区三区| 国产精品日韩在线观看| 19videosex性欧美69| 日本精品99| 91福利视频免费观看| 日韩欧美一区二区在线视频| 欧美日韩久久一区二区| 日本黄页在线观看| 免费毛片a| 国产一区免费在线| 欧美精品在线观看一区二区| 日韩av三区| 夜夜嗨av禁果av粉嫩av懂色av| 国产日产欧美一区二区| bbbbb女女女女女bbbbb国产| 国产麻豆一区二区三区精品| 97久久国产精品| 中文字幕a一二三在线| 青苹果av| 少妇在线看www| 午夜激情在线播放| 国产91一区二区在线观看| 国产69精品久久久| 国产在线精品一区| 国产欧美二区| 国产97久久| 999国产精品999久久久久久| 丝袜脚交一区二区| 91精品视频一区二区三区 | 午夜三级电影院| 97人人澡人人爽人人模亚洲| 日韩在线一区视频| 欧美老肥婆性猛交视频| 国产91福利视频| 久久精品视频中文字幕| 激情久久一区二区三区| 亚洲精品久久久久中文第一暮| 欧美精品在线视频观看| 黑人巨大精品欧美黑寡妇| 欧美髙清性xxxxhdvid| 欧美一区二区三区久久久| 国产精品视频99| 国产色99| 精品国产九九| 国v精品久久久网| 日韩毛片一区| 午夜爽爽爽男女免费观看 | 88888888国产一区二区| av不卡一区二区三区| 中文字幕欧美一区二区三区 | 93精品国产乱码久久久| 91社区国产高清| 国产日产欧美一区二区| 国产精品亚洲精品一区二区三区| 色午夜影院| 久久夜色精品国产噜噜麻豆| 精品综合久久久久| 99久久国产免费,99久久国产免费大片| 日韩午夜电影院| 国产精品国产三级国产专区52| 久久免费精品国产| 亚欧精品在线观看| 亚洲精品国产久| 国产精自产拍久久久久久蜜| 中文字幕久久精品一区| 国产呻吟高潮| 欧美一区二区久久久| 免费看农村bbwbbw高潮| 欧美一级久久精品| 日韩精品中文字幕在线| 91麻豆精品国产91久久久久推荐资源 | 粉嫩久久久久久久极品| 国产欧美日韩一级|