[發明專利]一種基于分塊的網頁正文信息提取方法在審

申請號：	201710349695.8	申請日：	2017-05-17
公開（公告）號：	CN108509469A	公開（公告）日：	2018-09-07
發明（設計）人：	姚國平	申請（專利權）人：	蘇州純青智能科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京華識知識產權代理有限公司 11530	代理人：	陳敏
地址：	215400 江蘇省蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	分塊信息提取網頁正文標簽樹內容塊網頁復雜結構特征分析網頁分割網頁分塊頁面分塊重要度成塊算法標準化分析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出了一種基于分塊的網頁正文信息提取方法，包括以下步驟：（1）網頁標準化；（2）構造標簽樹；（3）將網頁分割成塊；（4）提取含有正文的塊。本發明通過對網頁進行分塊和對內容塊的取舍進行信息提取，網頁分塊采用自底向上分析標簽樹的自動分塊算法，該方法比現有技術更準確，對復雜結構的頁面分塊效果更好，同時通過塊的重要度和塊特征分析每個內容塊，來提取用戶所需信息，準確性高，效果好。

技術領域

本發明涉及數據采集技術領域，具體涉及一種基于分塊的網頁正文信息提取方法。

背景技術

隨著網絡資源的不斷豐富和網絡信息量的不斷膨脹，人們對網絡的依賴性越來越強，卻也給服務對象從浩如煙海的互聯網資源中快速找到自己所需的特定資源帶來了不便；信息自古就有無限的價值，隨著時代的不斷發展，人類不知不覺已經來到了信息時代，各行各業都充斥了無數的信息，而信息的價值就在于數據的流通，如果數據能夠及時的流通和傳遞起來，才能發揮信息真正的不可比擬的價值；在市場經濟條件下，采集數據已經成為重要的工具和手段。

隨著Web的迅速發展，Web的信息越來越豐富。為了更好的使用Web上的信息，人們不斷追求能夠有效組強和利用網上信息的技術和系統。然頁，Web文檔不像傳統的文本那樣整齊、干凈，其中包含大量的噪音內容，例如為了增強用戶交互性而加入的腳本，為了便于用戶瀏覽而加入的導航鏈接，以及出于商業因素加入的廣告鏈接等。這些噪音內容不僅影響Web信息檢索的效率，而且還導致了檢索準確性的下降。

因此，針對上述問題，本發明提出了一種新的技術方案。

發明內容

本發明的目的是提供一種有效地去除噪音干擾，快速提取所需信息內容的基于分塊的網頁正文信息提取方法。

本發明是通過以下技術方案來實現的：

一種基于分塊的網頁正文信息提取方法，包括以下步驟：

網頁標準化：首先對HTML代碼進行預處理，將其標準化；

構造標簽樹：將整理好的規范網頁構造標簽樹，將網頁中的標簽按照嵌套關系整理成一棵樹狀結構，在構造的過程中保留每個節點的視覺屬性，同時，對標簽樹做裁剪，將無關節點刪除；

將網頁分割成塊，依據網頁中內容塊標簽作為容器標簽對網頁進行劃分；

a、通過統計標簽樹上的各種容器標簽的數量進行統計，判斷網頁是采用哪種容器標簽來做布局；

b、考察最底層容器標簽節點，將標簽樹最底層的節點下的所有文本節點合并，并統計該塊的信息含量，同時考察視覺特征；

c、考察每個底層節點的上一層節點，并計算該節點的信息含量，判斷該節點能否成為分塊節點；

提取含有正文的塊