[發明專利]一種網頁內容提取方法在審

申請號：	201811479503.6	申請日：	2018-12-05
公開（公告）號：	CN109635219A	公開（公告）日：	2019-04-16
發明（設計）人：	賈顯伏;葉偉強	申請（專利權）人：	云孚科技（北京）有限公司
主分類號：	G06F16/958	分類號：	G06F16/958;G06F16/951
代理公司：	北京世譽鑫誠專利代理事務所(普通合伙) 11368	代理人：	孫國棟
地址：	100085 北京市海淀區上地信息路2號（北京實創***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	節點集合網頁內容提取人力成本過濾集合標簽文本數據分析技術計分公式網頁內容遍歷
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開的網頁內容提取方法，涉及數據分析技術領域，通過過濾網頁內容中標簽為script及css的節點，生成基于DOM樹的第一節點集合，從第一節點集合中提取標簽包含文本的節點，生成基于DOM樹的第二節點集合，對第二節點集合中的各個節點進行過濾，生成基于DOM樹的第三節點集合，遍歷第三節點集合中的各個節點，依據設定的計分公式，分別計算各個節點的得分并生成得分集合，從得分集合中獲取分數最高的節點，從所述節點中提取文本，節省了大量人力成本、提高了效率及通用性，解決了現有技術存在的人力成本高、效率低及通用性不強的缺陷。

技術領域

本發明涉及數據分析技術領域，具體涉及一種網頁內容提取方法。

背景技術

在這個信息爆炸的大數據時代，海量的有價值數據是科學研究以及工業生產的重要基礎。隨著計算機計算能力與日俱增以及機器學習的大熱，對數據的需求也是越來越大。網頁作為互聯網信息的載體，是數據獲取的主要入口。海量的數據提取如果只是純粹依靠人力，顯然是很難或者是不可能的，所以只能依靠程序現實。但是網頁設計的初衷僅僅是向人展示信息，為了能吸引人的眼球，各種網頁的結構設計千變萬化，而且網頁中會有廣告，或者其他與用戶交互所必需的但與網頁主題內容不相關的信息，為正文內容的提取帶來了諸多挑戰。

現有的技術方案都是針對特定的網站，結合網頁DOM樹結構設計出一個定向的爬蟲程序，但是，正如上文描述的那樣，還是需要有專門的人員對網頁DOM樹結構進行分析，這種技術方案對于特定的網站能有很好的效果，但是，如果該網站在未來進行過頁面調整，那么這種方案就會失效，而且這種技術方案不具備泛化能力，也就是說如果有1000個不同的網頁，那么就需要分析這1000個網頁的DOM樹結構。

綜上，可以看出，現有的解決方案需要投入大量的人力，效率較低、通用性不強。

發明內容

為解決現有技術的不足，本發明實施例提供了一種網頁內容提取方法。

本發明實施例提供的網頁內容提取方法包括以下步驟：

過濾網頁內容中標簽為script及css的節點，生成基于DOM樹的第一節點集合；

從所述第一節點集合中提取標簽包含文本的節點，生成基于DOM樹的第二節點集合；

對所述第二節點集合中的各個節點進行過濾，生成基于DOM樹的第三節點集合，包括：

判斷所述第二節點集合中是否存在停用詞的數量是否小于設定的閾值的節點，如果是，則過濾掉所述節點；

判斷判斷所述第二節點集合中標簽為a或img的節點的密度是否大于設定的閾值，如果是，則過濾掉所述節點；

遍歷所述第三節點集合中的各個節點，依據設定的計分公式S＝a+b+n×1，分別計算各個節點的得分并生成得分集合，其中，a為初始分、b為獎勵分、n為停用詞的數量；

從所述得分集合中獲取分數最高的節點，從所述節點中提取文本。

進一步地，所述方法還包括：