[發明專利]一種網頁正文及要素提取的方法和系統有效

申請號：	201911252927.3	申請日：	2019-12-09
公開（公告）號：	CN110990738B	公開（公告）日：	2021-11-26
發明（設計）人：	李兆鈞;羅啟澤;雷小平	申請（專利權）人：	創優數字科技（廣東）有限公司
主分類號：	G06F16/957	分類號：	G06F16/957;G06F16/958
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	郭帥
地址：	516000 廣東省廣州市海珠區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種網頁正文要素提取方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種網頁正文及要素提取的方法，其特征在于，包括以下步驟：

S1：從同一平臺采集多個網頁，分別對單個網頁進行預處理；

S2：計算單個所述網頁的正文、發布時間、來源的提取候選路徑及其評分，得到所述網頁的網頁級提取候選路徑及評分；其中，所述網頁級提取候選路徑包括網頁級正文提取候選路徑、網頁級發布時間提取候選路徑和網頁級來源提取候選路徑；

其中，計算單個所述網頁的正文提取候選路徑及評分進一步包括：

遍歷所述網頁的DOM結構樹，對每個節點計算正文長度占比，根據所述正文長度占比降序排列，取出正文長度占比位于前K位的路徑，計算兩兩路徑之間的最大公共路徑及其綜合評分，取綜合評分最高的最大公共路徑作為所述網頁的網頁級正文提取候選路徑，K為整數；

S3：對多個網頁的所述網頁級提取候選路徑及評分進行綜合計算，得到平臺級提取候選路徑及評分；其中，所述平臺級提取候選路徑包括平臺級正文提取候選路徑、平臺級發布時間提取候選路徑和平臺級來源提取候選路徑；

S4：判斷所述平臺級提取候選路徑是否達到置信水平，如達到則作為平臺級提取路徑，生成所述平臺的要素提取器，如未達到則計算需要重新采集網頁的數量，轉去執行S1。

2.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，對每個節點計算正文長度占比進一步包括，所述正文長度占比的計算公式可以為：

正文長度占比＝去除HTML標簽的文本長度/節點原始文本長度。

3.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，計算兩兩路徑之間的最大公共路徑進一步包括：從根節點開始逐個對比兩條路徑對應位置上的節點，直到出現第一個不一致的節點，取從根節點開始到當前位置前一個節點作為最大公共路徑。

4.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，計算兩兩路徑之間的綜合評分進一步包括：計算兩兩路徑之間的的路徑評分，以最大公共路徑為關鍵字匯總，對應的路徑評分作為值進行聚合，聚合方式為求平均值和最大值，對平均值和最大值求和得到每個最大公共路徑的綜合評分。

5.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，S2中計算單個所述網頁的發布時間提取候選路徑及評分進一步包括：遍歷所述網頁的DOM結構樹，對每個節點計算時間長度占比，取占比最高的路徑作為所述網頁的網頁級發布時間提取候選路徑。

6.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，S2中計算單個所述網頁的來源提取候選路徑及評分進一步包括：在所述網頁的網頁級發布時間提取候選路徑內，利用模式匹配技術提取來源內容，如在當前節點提取不到所需內容，則向上一級節點進行提取，直至達到所述網頁的網頁級發布時間提取候選路徑與網頁級正文提取候選路徑的最大公共路徑為止；如提取到所需內容，取當前所在路徑作為所述網頁的網頁級來源提取候選路徑。

7.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，S4中所述平臺級提取候選路徑的置信度進一步包括：所述平臺級正文提取候選路徑的置信度可以為：

其中，N為網頁級正文提取候選路徑的個數，N_T為網頁級正文提取候選路徑與平臺級正文提取候選路徑一致的數量，Conf為平臺級正文提取候選路徑的置信度。

8.如權利要求1所述的網頁正文及要素提取的方法，其特征在于，S4中計算需要重新采集網頁的數量進一步包括：

其中，N_new為需要重新采集網頁的數量，α為置信水平，N為網頁級正文提取候選路徑的個數，N_T為網頁級正文提取候選路徑與平臺級正文提取候選路徑一致的數量。

9.一種應用了如權利要求1-8任意一項方法的網頁正文及要素提取的系統，其特征在于，包括以下部分：

網頁采集與預處理模塊：用于從同一平臺采集多個網頁，分別對單個網頁進行預處理；

網頁級處理模塊：用于計算單個所述網頁的正文、發布時間、來源的提取候選路徑及其評分，得到所述網頁的網頁級提取候選路徑及評分；其中，所述網頁級提取候選路徑包括網頁級正文提取候選路徑、網頁級發布時間提取候選路徑和網頁級來源提取候選路徑；

其中，所述網頁級處理模塊計算單個所述網頁的正文提取候選路徑及評分進一步包括：

平臺級處理模塊：用于對多個網頁的所述網頁級提取候選路徑及評分進行綜合計算，得到平臺級提取候選路徑及評分；其中，所述平臺級提取候選路徑包括平臺級正文提取候選路徑、平臺級發布時間提取候選路徑和平臺級來源提取候選路徑；

判斷模塊：用于判斷所述平臺級提取候選路徑是否達到置信水平，如達到則作為平臺級提取路徑，生成所述平臺的要素提取器，如未達到則計算需要重新采集網頁的數量，利用網頁采集與預處理模塊重新采集網頁及進行預處理。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載