[發明專利]一種網頁正文的識別處理方法及裝置在審
| 申請號: | 201910945459.1 | 申請日: | 2019-09-30 |
| 公開(公告)號: | CN110795933A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 禹慶華;葉盛;李凱;沈鵬;李國輝 | 申請(專利權)人: | 奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/163;G06F40/131 |
| 代理公司: | 11002 北京路浩知識產權代理有限公司 | 代理人: | 馬瑞 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁正文 文字區塊 邊界識別 網頁文本 網頁源碼 網頁 數量確定 網頁標簽 泛化性 分塊 統計 | ||
本發明實施例公開了一種網頁正文的識別處理方法及裝置,方法包括:獲取待識別網頁的網頁源碼,清除所述網頁源碼中所有的網頁標簽,得到包括空白行的網頁文本;根據空白行對所述網頁文本進行分塊,得到若干個文字區塊,各文字區塊之間為空白行;統計各文字區塊的文字數量,根據各文字區塊的文字數量確定網頁正文的邊界,并根據網頁正文的邊界識別所述待識別網頁中的網頁正文。本發明實施例通過統計各文字區塊的文字數量來確定網頁正文的邊界,并根據邊界識別待識別網頁中的網頁正文,適應于所有類型的網頁正文提取,提取過程簡單,大大提高了網頁正文提取的準確性和泛化性。
技術領域
本發明涉及計算機技術領域,具體涉及一種網頁正文的識別處理方法及裝置。
背景技術
當前網頁正文提取主要采用DOM(Document Object Model,文檔對象模型)解析網頁HTML(HyperText Markup Language,超文本標記語言)源碼,把HTML解析為一個樹結構。通過分析樹結構,并基于一定的設定規則提取網頁正文。但是,網頁HTML結構千變萬化,每一個網頁設計都不一樣,例如電商和新聞報道的網站結構就很不相同。
因此,現有的網頁正文的提取方法穩定性太低,對有些類型的網頁提取準確,而對另一些類型的網頁提取則不準確,可能提取到網頁邊緣的一些信息,泛化能力不強。
發明內容
由于現有方法存在上述問題,本發明實施例提出一種網頁正文的識別處理方法及裝置。
第一方面,本發明實施例提出一種網頁正文的識別處理方法,包括:
獲取待識別網頁的網頁源碼,清除所述網頁源碼中所有的網頁標簽,得到包括空白行的網頁文本;
根據空白行對所述網頁文本進行分塊,得到若干個文字區塊,各文字區塊之間為空白行;
統計各文字區塊的文字數量,根據各文字區塊的文字數量確定網頁正文的邊界,并根據網頁正文的邊界識別所述待識別網頁中的網頁正文。
可選地,所述根據各文字區塊的文字數量確定網頁正文的邊界,具體包括:
根據當前文字區塊的文字數量與上一個文字區塊的文字數量,計算得到當前文字區塊與上一個文字區塊的文字數量差值;
若所述文字數量差值大于閾值,則確定當前文字區塊的起始位置或上一個文字區塊的結束位置為網頁正文的邊界。
可選地,所述若所述文字數量差值大于閾值,則確定當前文字區塊的起始位置或上一個文字區塊的結束位置為網頁正文的邊界,具體包括:
若所述文字數量差值為正數,則確定當前文字區塊的起始位置為網頁正文的開始邊界;
若所述文字數量差值為負數,則確定上一個文字區塊的結束位置為網頁正文的結束邊界。
可選地,所述根據網頁正文的邊界識別所述待識別網頁中的網頁正文,具體包括:
將每個網頁正文的開始邊界與下一個結束邊界之間的文字識別為正文部分;
將所有正文部分進行合并,得到所述待識別網頁中的網頁正文。
可選地,所述網頁正文的識別處理方法還包括:
若判斷網頁正文的開始邊界和結束邊界的數量相等,且開始邊界和結束邊界間隔出現,則確定網頁正文的開始邊界和結束邊界識別正確。
可選地,所述閾值根據空白區塊的平均數量或文字區塊的平均數量確定;
其中,所述空白區塊的平均數量為每個空白區塊的字符數量的平均值;
所述文字區塊的平均數量為每個文字區塊的文字數量的平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司,未經奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910945459.1/2.html,轉載請聲明來源鉆瓜專利網。





