[發(fā)明專利]一種Web論壇信息抽取系統(tǒng)無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200910227300.2 | 申請(qǐng)日: | 2009-12-04 |
| 公開(公告)號(hào): | CN101727486A | 公開(公告)日: | 2010-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 李弼程;王允;林琛;郭志剛;閻紅燦 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍信息工程大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 450002 *** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 web 論壇 信息 抽取 系統(tǒng) | ||
1.一種Web論壇信息抽取系統(tǒng),其特征在于,該系統(tǒng)包括如下模塊:
網(wǎng)頁(yè)采集模塊,用于根據(jù)用戶指定的論壇站點(diǎn)和相應(yīng)的版塊自動(dòng)下載論壇網(wǎng)頁(yè);
網(wǎng)頁(yè)解析模塊,用于對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行清洗,形成網(wǎng)頁(yè)的文檔對(duì)象模型以便信息抽取算法的實(shí)施;
在線抽取模塊,用于根據(jù)論壇網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)對(duì)網(wǎng)頁(yè)中的指定信息進(jìn)行抽取;
數(shù)據(jù)庫(kù)存儲(chǔ)模塊,用于將所抽取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中以便進(jìn)行其它的應(yīng)用。
2.根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述網(wǎng)頁(yè)采集模塊包括以下單元:
網(wǎng)頁(yè)獲取單元,該單元向HTTP服務(wù)器發(fā)送請(qǐng)求,讀取返回的內(nèi)容;
鏈接獲取單元,該單元從下載到的網(wǎng)頁(yè)中分析提取出待下載的網(wǎng)頁(yè)的URL;
下載隊(duì)列管理單元,該單元根據(jù)一定的策略從下載URL隊(duì)列中取出下一個(gè)要下載的URL。
3.根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述網(wǎng)頁(yè)解析模塊進(jìn)一步用于所述網(wǎng)頁(yè)采集模塊中的鏈接獲取單元,鏈接分析提取是基于網(wǎng)頁(yè)的DOM樹進(jìn)行的。
4.根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述在線抽取模塊包括以下單元:
網(wǎng)頁(yè)主題信息塊發(fā)現(xiàn)單元,該單元從網(wǎng)頁(yè)中確定包含待抽取信息的塊狀區(qū)域,對(duì)網(wǎng)頁(yè)噪聲進(jìn)行初步過(guò)濾;
信息抽取單元,該單元對(duì)主題信息塊中的網(wǎng)頁(yè)噪聲進(jìn)行進(jìn)一步的過(guò)濾,再?gòu)闹谐槿〕鲋付ǖ男畔ⅰ?/p>
5.根據(jù)權(quán)利要求1所述的Web論壇信息抽取系統(tǒng),其特征在于,所述數(shù)據(jù)庫(kù)存儲(chǔ)模塊包括以下單元:
信息識(shí)別單元,該單元用于確定抽取出的信息是否已存在于數(shù)據(jù)庫(kù)中,進(jìn)一步確定是否要進(jìn)行插入記錄操作或是更新記錄操作或是空操作;
信息保存單元,該單元將抽取出的信息插入或更新至數(shù)據(jù)庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍信息工程大學(xué),未經(jīng)中國(guó)人民解放軍信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910227300.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁(yè)中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實(shí)現(xiàn)方法
- 一種WEB業(yè)務(wù)實(shí)現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點(diǎn)轉(zhuǎn)換為目標(biāo)web app站點(diǎn)的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報(bào)告生成方法、裝置、設(shè)備及計(jì)算機(jī)介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





