[發明專利]一種基于主題的Web頁面清洗方法有效

申請號：	201310378986.1	申請日：	2013-08-27
公開（公告）號：	CN103440315A	公開（公告）日：	2013-12-11
發明（設計）人：	沈琦;宋清明;張猛;湯艷	申請（專利權）人：	北京工業大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京思海天達知識產權代理有限公司 11203	代理人：	張慧
地址：	100124 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于主題 web 頁面清洗方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于計算機科學與技術領域，涉及一種基于主題的Web頁面清洗方法。

背景技術

當今互聯網上的資源信息依然集中在各式各樣的Web頁面中，由于Web頁面內容豐富，結構復雜，而有時我們關心的也許只是頁面當中很小一部分內容塊。如何針對不同的網頁結構去除頁面中大量無用的信息，而只獲取到所需要的數據，為人們更好的提供檢索服務，這就成為了Web資源處理過程中一個重要的工作，頁面清洗就是為達到這一目標而出現。

目前通用的頁面清洗方法主要分為三個步驟：第一步將頁面當中的樣式表、腳本以及注釋等無關信息去除掉。第二步將頁面分塊，包括圖像塊、文本塊和鏈接塊等等。第三步按照指定規則對各塊做進一步篩選，例如從鏈接塊中分離出廣告鏈接、導航鏈接等無用信息，從文本塊中分離出公告、廣告等非關鍵信息。經過上述幾步處理之后，頁面在結構和語義上就被劃分為細粒度的信息塊，使后續的信息加工處理工作能夠順利進行。

現在比較流行的頁面清洗方法有以下兩類：

一是基于樣本學習策略的頁面清洗方法。該方法基于對大量采集樣本的學習，分析所需清洗頁面的內容塊，從而保留必要的采集信息。這種清洗方法對于相似頁面清洗效率高，清洗的準確度和精度都很高，但是對于異構的頁面效率明顯降低，適用范圍不廣。同時，該方法前期的學習過程需要借助大量的樣本頁面，樣本頁面質量的好壞決定了清洗的效能，樣本學習也是一個比較耗時的過程，因此該方法的依賴性強，前期投入和開銷大。

二是基于頁面DOM解析策略的頁面清洗方法。該方法是目前適用范圍最廣的一種頁面清洗方法，它的中心思想是依賴于對頁面文檔結構模型DOM的分析。經過對頁面DOM的分析和學習得到一系列“噪聲”信息，然后把這些無用的信息去除，從而保留必要的采集信息。這種方法不同于上述方法，由于是基于頁面DOM的分析和判斷，對不同的“噪聲”信息可以根據情況設定不同的標準，因此它對異構頁面的清洗效果較好，使用范圍也比較廣。但是由于是基于DOM的方法，對系統內存的開銷較大，同時清洗的時間效率也不是很高。

可以看出，目前頁面清洗方法的設計思路都比較相似，都是基于樣本學習和頁面DOM分析來實現，這些方式的算法過于復雜，對于特定結構的網頁抽取效率高，對于異構網頁處理效果不好，這種機制高度依賴網頁結構的相似性，但是對于當今互聯網頁面的異構性和復雜性，這種機制的處理結果比較不理想，而且此算法本身實現復雜，不利于更新。

發明內容

針對現有技術中存在的算法復雜、效率低、成本高等問題，本發明提出了一種基于主題正則表達式匹配抽取策略的頁面清洗方法。

為了實現上述目的，本發明采用以下技術方案：

首先，對待清洗頁面的頁面結構特征進行分析，具體包含確定待清洗頁面的頁面主題領域、確定頁面的樣本以及確定抽取內容標簽邊界。

其次，根據確定的內容標簽邊界定義匹配抽取規則的正則表達式。

然后，進行頁面清洗前的預處理工作，包括對頁面的標簽和內容進行標準格式化，把頁面標簽和內容的形式盡量標準化，以降低算法的難度，提高匹配抽取過程的效率。

最后，利用匹配規則進行頁面清洗，得到清洗后的頁面內容。

與現有技術相比，本發明具有以下優點：

本發明將傳統頁面清洗工作的從在頁面中“找”出“噪聲”信息變成直接在頁面中抽取有用信息，大大降低了頁面清洗的復雜度和困難度。針對Web頁面標簽的復雜多樣性和局部固定性，采用正則表達式直接匹配和抽取需要的標簽，保留有用信息并自動剔除掉無用信息，可有效地實現頁面清洗的目的。本發明避開了傳統頁面清洗技術的缺陷，簡單實用，清洗效率和準確性都有所提高，同時節約了系統的開銷。這種個性化、有針對性的設計思想不僅能降低目前頁面清洗方法的難度，同時還能提高頁面的清洗效率，更能適應目前Web信息采集技術基于主題、定向、個性化的發展趨勢。

附圖說明

圖1為本發明所涉及的方法流程圖；

圖2為旅游網頁酒店信息實例；

圖3為網頁結構圖；

圖4為頁面dl標簽片段；

圖5為頁面ul標簽片段。

具體實施方式

下面根據附圖和具體實施例對本發明做進一步說明。

本發明所述方法的流程圖如圖1所示，包括如下步驟：

步驟一，確定主題領域：人工采集和選取多個樣本頁面進行分析，提取出關鍵詞，由關鍵詞確定頁面內容的主題范圍，最終確定主題領域。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載