[發明專利]一種Web論壇信息抽取系統無效
| 申請號: | 200910227300.2 | 申請日: | 2009-12-04 |
| 公開(公告)號: | CN101727486A | 公開(公告)日: | 2010-06-09 |
| 發明(設計)人: | 李弼程;王允;林琛;郭志剛;閻紅燦 | 申請(專利權)人: | 中國人民解放軍信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450002 *** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 論壇 信息 抽取 系統 | ||
技術領域
本發明涉及Web信息處理技術領域,尤其是涉及一種Web論壇信息抽取系統。
背景技術
隨著互聯網技術的不斷發展,互聯網上的信息呈現出爆炸式的增長。而其中Web論壇發展得尤為迅猛,據中國Web信息中心2008年底的統計,Web論壇的使用人數達到了9100萬,占網民總數的30%以上。每天都有成千上萬的人在不同的Web論壇發布信息、探討問題、交流觀點,日積月累使Web論壇成為一個巨大的信息資源庫,如何有效的從Web論壇中抽取出有用的信息具有重要的意義。
Web論壇信息抽取屬于Web信息抽取中針對網頁中某種屬性的抽取,比根據從新聞報道中抽取標題、正文內容、作者、發表時間等。目前Web信息抽取的方法主要有三種:
(1)、手工方法:通過觀察網頁代碼發現一定的模式,再根據此模式編寫程序實現目標數據的抽取。當需要處理的站點數量較大時,此種方法需要耗費大量的人力勞動,代價較高。
(2)、構造分裝器(Wrapper):分裝器是一種軟件構件,主要通過兩種方式來生成,一是通過領域專家來制定抽取規則,二是采用機器學習算法通過學習標注過的樣本來自動生成Wrapper。這實際上是一種半自動的抽取方法,仍然需要手工標注樣本,
(3)、自動抽取:無監督的方法,該種方法能從網頁中自動尋找模式或語法以進行數據的抽取。因為此種方法不需要手工標注樣本,所以適用于處理大量站點和網頁的信息抽取工作,但是其準確率相對較低。
由于互聯網上論壇數量巨大,而且各個論壇風格各異,現有方法用于Web論壇信息抽取時或多或少存在一些問題:方法1,2需要大量的人工參與,無法滿足實際應用的需求;方法3能實現自動抽取但準確率又比較低。因此,我們迫切需求一種適用與Web論壇信息抽取的全自動、準確率高的方法。
發明內容
有鑒于此,本發明的目的在于提供一種Web論壇信息抽取系統,該系統能對互聯網上多種論壇的指定信息進行自動抽取,且有很高的準確率。
為達到上述目的,本發明的系統包括以下模塊:
網頁采集模塊,用于根據用戶指定的論壇站點和相應的版塊自動下載論壇網頁;網頁解析模塊,用于對網頁內容進行清洗,形成網頁的文檔對象模型(DOM)以便信息抽取算法的實施;在線抽取模塊,用于根據論壇網頁的布局結構特點對網頁中的指定信息進行抽取;數據庫存儲模塊,用于將所抽取的內容存儲在數據庫系統中以便進行其它的應用。
進一步,所述網頁采集模塊包括以下單元:
網頁獲取單元,該單元向HTTP服務器發送請求,讀取返回的內容;鏈接獲取單元,該單元從下載到的網頁中分析提取出待下載的網頁的URL;下載隊列管理單元,該單元根據一定的策略從下載URL隊列中取出下一個要下載的URL。
進一步,所述網頁解析模塊還用于所述網頁采集模塊中的鏈接獲取單元,鏈接分析提取是基于網頁的DOM樹進行的。
進一步,所述在線抽取模塊包括以下單元:網頁主題信息塊發現單元,該單元從網頁中確定包含待抽取信息的塊狀區域,對網頁噪聲進行初步過濾;信息抽取單元,該單元對主題信息塊中的網頁噪聲進行進一步的過濾,再從中抽取出指定的信息。
進一步,所述數據庫存儲模塊包括以下單元:信息識別單元,該單元用于確定抽取出的信息是否已存在于數據庫中,進一步確定是否要進行插入記錄操作或是更新記錄操作或是空操作;信息保存單元,該單元將抽取出的信息插入或更新至數據庫。
本發明的有益效果是:
本發明的有益效果在于,由于抓住了論壇網頁在布局結構上的共有特點,使得本發明可以適用于互聯網上絕大多數的論壇,通用性比較強。同時通過逐步縮小待抽取信息的范圍以及利用了待抽取信息的統計規律和自身特點,使信息抽取的準確率很高;另外,本發明不需要人工標注樣本,極大的減少了成本。本發明的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書以及附圖中所特別指出的結構來實現和獲得。
附圖說明
附圖為本發明的結構示意圖。
圖1是本發明Web論壇信息抽取系統的結構圖;
圖2是本發明Web論壇信息抽取系統操作方法的流程圖;
具體實施方式
下面結合附圖和實施例對本發明作進一步描述。
如圖1所示,本發明的系統結構包括如下模塊:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍信息工程大學,未經中國人民解放軍信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910227300.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁練字法和網頁練字帖
- 下一篇:含有雜質三七皂苷R1的人參皂苷Rg1
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





