[發明專利]一種網頁正文的識別處理方法及裝置在審

申請號：	201910945459.1	申請日：	2019-09-30
公開（公告）號：	CN110795933A	公開（公告）日：	2020-02-14
發明（設計）人：	禹慶華;葉盛;李凱;沈鵬;李國輝	申請（專利權）人：	奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司
主分類號：	G06F40/279	分類號：	G06F40/279;G06F40/163;G06F40/131
代理公司：	11002 北京路浩知識產權代理有限公司	代理人：	馬瑞
地址：	100088 北京市西城區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁正文文字區塊邊界識別網頁文本網頁源碼網頁數量確定網頁標簽泛化性分塊統計
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種網頁正文的識別處理方法及裝置，方法包括：獲取待識別網頁的網頁源碼，清除所述網頁源碼中所有的網頁標簽，得到包括空白行的網頁文本；根據空白行對所述網頁文本進行分塊，得到若干個文字區塊，各文字區塊之間為空白行；統計各文字區塊的文字數量，根據各文字區塊的文字數量確定網頁正文的邊界，并根據網頁正文的邊界識別所述待識別網頁中的網頁正文。本發明實施例通過統計各文字區塊的文字數量來確定網頁正文的邊界，并根據邊界識別待識別網頁中的網頁正文，適應于所有類型的網頁正文提取，提取過程簡單，大大提高了網頁正文提取的準確性和泛化性。

技術領域

本發明涉及計算機技術領域，具體涉及一種網頁正文的識別處理方法及裝置。

背景技術

當前網頁正文提取主要采用DOM(Document Object Model，文檔對象模型)解析網頁HTML(HyperText Markup Language，超文本標記語言)源碼，把HTML解析為一個樹結構。通過分析樹結構，并基于一定的設定規則提取網頁正文。但是，網頁HTML結構千變萬化，每一個網頁設計都不一樣，例如電商和新聞報道的網站結構就很不相同。

因此，現有的網頁正文的提取方法穩定性太低，對有些類型的網頁提取準確，而對另一些類型的網頁提取則不準確，可能提取到網頁邊緣的一些信息，泛化能力不強。

發明內容

由于現有方法存在上述問題，本發明實施例提出一種網頁正文的識別處理方法及裝置。

第一方面，本發明實施例提出一種網頁正文的識別處理方法，包括：

獲取待識別網頁的網頁源碼，清除所述網頁源碼中所有的網頁標簽，得到包括空白行的網頁文本；

根據空白行對所述網頁文本進行分塊，得到若干個文字區塊，各文字區塊之間為空白行；

統計各文字區塊的文字數量，根據各文字區塊的文字數量確定網頁正文的邊界，并根據網頁正文的邊界識別所述待識別網頁中的網頁正文。

可選地，所述根據各文字區塊的文字數量確定網頁正文的邊界，具體包括：

根據當前文字區塊的文字數量與上一個文字區塊的文字數量，計算得到當前文字區塊與上一個文字區塊的文字數量差值；

若所述文字數量差值大于閾值，則確定當前文字區塊的起始位置或上一個文字區塊的結束位置為網頁正文的邊界。

可選地，所述若所述文字數量差值大于閾值，則確定當前文字區塊的起始位置或上一個文字區塊的結束位置為網頁正文的邊界，具體包括：

若所述文字數量差值為正數，則確定當前文字區塊的起始位置為網頁正文的開始邊界；