[發明專利]一種基于分塊的網頁正文信息提取方法在審
| 申請號: | 201710349695.8 | 申請日: | 2017-05-17 |
| 公開(公告)號: | CN108509469A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 姚國平 | 申請(專利權)人: | 蘇州純青智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華識知識產權代理有限公司 11530 | 代理人: | 陳敏 |
| 地址: | 215400 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分塊 信息提取 網頁正文 標簽樹 內容塊 網頁 復雜結構 特征分析 網頁分割 網頁分塊 頁面分塊 重要度 成塊 算法 標準化 分析 | ||
本發明提出了一種基于分塊的網頁正文信息提取方法,包括以下步驟:(1)網頁標準化;(2)構造標簽樹;(3)將網頁分割成塊;(4)提取含有正文的塊。本發明通過對網頁進行分塊和對內容塊的取舍進行信息提取,網頁分塊采用自底向上分析標簽樹的自動分塊算法,該方法比現有技術更準確,對復雜結構的頁面分塊效果更好,同時通過塊的重要度和塊特征分析每個內容塊,來提取用戶所需信息,準確性高,效果好。
技術領域
本發明涉及數據采集技術領域,具體涉及一種基于分塊的網頁正文信息提取方法。
背景技術
隨著網絡資源的不斷豐富和網絡信息量的不斷膨脹,人們對網絡的依賴性越來越強,卻也給服務對象從浩如煙海的互聯網資源中快速找到自己所需的特定資源帶來了不便;信息自古就有無限的價值,隨著時代的不斷發展,人類不知不覺已經來到了信息時代,各行各業都充斥了無數的信息,而信息的價值就在于數據的流通,如果數據能夠及時的流通和傳遞起來,才能發揮信息真正的不可比擬的價值;在市場經濟條件下,采集數據已經成為重要的工具和手段。
隨著Web的迅速發展,Web的信息越來越豐富。為了更好的使用Web上的信息,人們不斷追求能夠有效組強和利用網上信息的技術和系統。然頁,Web文檔不像傳統的文本那樣整齊、干凈,其中包含大量的噪音內容,例如為了增強用戶交互性而加入的腳本,為了便于用戶瀏覽而加入的導航鏈接,以及出于商業因素加入的廣告鏈接等。這些噪音內容不僅影響Web信息檢索的效率,而且還導致了檢索準確性的下降。
因此,針對上述問題,本發明提出了一種新的技術方案。
發明內容
本發明的目的是提供一種有效地去除噪音干擾,快速提取所需信息內容的基于分塊的網頁正文信息提取方法。
本發明是通過以下技術方案來實現的:
一種基于分塊的網頁正文信息提取方法,包括以下步驟:
網頁標準化:首先對HTML代碼進行預處理,將其標準化;
構造標簽樹:將整理好的規范網頁構造標簽樹,將網頁中的標簽按照嵌套關系整理成一棵樹狀結構,在構造的過程中保留每個節點的視覺屬性,同時,對標簽樹做裁剪,將無關節點刪除;
將網頁分割成塊,依據網頁中內容塊標簽作為容器標簽對網頁進行劃分;
a、通過統計標簽樹上的各種容器標簽的數量進行統計,判斷網頁是采用哪種容器標簽來做布局;
b、考察最底層容器標簽節點,將標簽樹最底層的節點下的所有文本節點合并,并統計該塊的信息含量,同時考察視覺特征;
c、考察每個底層節點的上一層節點,并計算該節點的信息含量,判斷該節點能否成為分塊節點;
提取含有正文的塊
分塊結束后,對內容塊根據用戶的不同需要進行取舍,取出含有正文信息的內容塊。
進一步地,所述步驟中構造標簽樹的方法采用DOM標簽樹構造工具。
進一步地,所述步驟中依據網頁中內容塊標簽作為容器標簽對網頁進行劃分,其它類型的標簽信息作為所在內容塊的屬性。
進一步地,所述視覺特征包括表格的大小、位置、字體的大小和顏色、以及段落的長短。
進一步地,所述步驟中,依據內容塊的重要度以及塊特征對內容塊進行取舍。
進一步地,所述塊特征包括空間特征和內容特征,所述空間特征包括內容塊的位置和大小,內容特征包括文字長度、鏈接數量和圖片數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州純青智能科技有限公司,未經蘇州純青智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710349695.8/2.html,轉載請聲明來源鉆瓜專利網。





