日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種Web論壇信息抽取系統無效

專利信息
申請號: 200910227300.2 申請日: 2009-12-04
公開(公告)號: CN101727486A 公開(公告)日: 2010-06-09
發明(設計)人: 李弼程;王允;林琛;郭志剛;閻紅燦 申請(專利權)人: 中國人民解放軍信息工程大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 450002 *** 國省代碼: 河南;41
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 web 論壇 信息 抽取 系統
【說明書】:

技術領域

發明涉及Web信息處理技術領域,尤其是涉及一種Web論壇信息抽取系統。

背景技術

隨著互聯網技術的不斷發展,互聯網上的信息呈現出爆炸式的增長。而其中Web論壇發展得尤為迅猛,據中國Web信息中心2008年底的統計,Web論壇的使用人數達到了9100萬,占網民總數的30%以上。每天都有成千上萬的人在不同的Web論壇發布信息、探討問題、交流觀點,日積月累使Web論壇成為一個巨大的信息資源庫,如何有效的從Web論壇中抽取出有用的信息具有重要的意義。

Web論壇信息抽取屬于Web信息抽取中針對網頁中某種屬性的抽取,比根據從新聞報道中抽取標題、正文內容、作者、發表時間等。目前Web信息抽取的方法主要有三種:

(1)、手工方法:通過觀察網頁代碼發現一定的模式,再根據此模式編寫程序實現目標數據的抽取。當需要處理的站點數量較大時,此種方法需要耗費大量的人力勞動,代價較高。

(2)、構造分裝器(Wrapper):分裝器是一種軟件構件,主要通過兩種方式來生成,一是通過領域專家來制定抽取規則,二是采用機器學習算法通過學習標注過的樣本來自動生成Wrapper。這實際上是一種半自動的抽取方法,仍然需要手工標注樣本,

(3)、自動抽取:無監督的方法,該種方法能從網頁中自動尋找模式或語法以進行數據的抽取。因為此種方法不需要手工標注樣本,所以適用于處理大量站點和網頁的信息抽取工作,但是其準確率相對較低。

由于互聯網上論壇數量巨大,而且各個論壇風格各異,現有方法用于Web論壇信息抽取時或多或少存在一些問題:方法1,2需要大量的人工參與,無法滿足實際應用的需求;方法3能實現自動抽取但準確率又比較低。因此,我們迫切需求一種適用與Web論壇信息抽取的全自動、準確率高的方法。

發明內容

有鑒于此,本發明的目的在于提供一種Web論壇信息抽取系統,該系統能對互聯網上多種論壇的指定信息進行自動抽取,且有很高的準確率。

為達到上述目的,本發明的系統包括以下模塊:

網頁采集模塊,用于根據用戶指定的論壇站點和相應的版塊自動下載論壇網頁;網頁解析模塊,用于對網頁內容進行清洗,形成網頁的文檔對象模型(DOM)以便信息抽取算法的實施;在線抽取模塊,用于根據論壇網頁的布局結構特點對網頁中的指定信息進行抽取;數據庫存儲模塊,用于將所抽取的內容存儲在數據庫系統中以便進行其它的應用。

進一步,所述網頁采集模塊包括以下單元:

網頁獲取單元,該單元向HTTP服務器發送請求,讀取返回的內容;鏈接獲取單元,該單元從下載到的網頁中分析提取出待下載的網頁的URL;下載隊列管理單元,該單元根據一定的策略從下載URL隊列中取出下一個要下載的URL。

進一步,所述網頁解析模塊還用于所述網頁采集模塊中的鏈接獲取單元,鏈接分析提取是基于網頁的DOM樹進行的。

進一步,所述在線抽取模塊包括以下單元:網頁主題信息塊發現單元,該單元從網頁中確定包含待抽取信息的塊狀區域,對網頁噪聲進行初步過濾;信息抽取單元,該單元對主題信息塊中的網頁噪聲進行進一步的過濾,再從中抽取出指定的信息。

進一步,所述數據庫存儲模塊包括以下單元:信息識別單元,該單元用于確定抽取出的信息是否已存在于數據庫中,進一步確定是否要進行插入記錄操作或是更新記錄操作或是空操作;信息保存單元,該單元將抽取出的信息插入或更新至數據庫。

本發明的有益效果是:

本發明的有益效果在于,由于抓住了論壇網頁在布局結構上的共有特點,使得本發明可以適用于互聯網上絕大多數的論壇,通用性比較強。同時通過逐步縮小待抽取信息的范圍以及利用了待抽取信息的統計規律和自身特點,使信息抽取的準確率很高;另外,本發明不需要人工標注樣本,極大的減少了成本。本發明的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書以及附圖中所特別指出的結構來實現和獲得。

附圖說明

附圖為本發明的結構示意圖。

圖1是本發明Web論壇信息抽取系統的結構圖;

圖2是本發明Web論壇信息抽取系統操作方法的流程圖;

具體實施方式

下面結合附圖和實施例對本發明作進一步描述。

如圖1所示,本發明的系統結構包括如下模塊:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍信息工程大學,未經中國人民解放軍信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/200910227300.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国内精品99| 亚洲欧美国产精品一区二区| 欧美亚洲视频二区| 国产一区二区三区午夜| 国产精品女人精品久久久天天| 久久免费精品国产| 91精品夜夜| 国产偷窥片| 国产91在线拍偷自揄拍 | 国产精品一区不卡| 国产jizz18女人高潮| 国产精品久久免费视频| 亚洲乱在线| 久久国产精品99国产精| 亚洲精品一区中文字幕| 国产精品一区二区在线看| 天摸夜夜添久久精品亚洲人成| 欧美一区二区三区中文字幕| 国产一区二区91| 97视频精品一二区ai换脸| 一区二区久久精品66国产精品| 欧美日韩一区二区三区四区五区| 久久99久久99精品蜜柚传媒| 欧美激情精品一区| 国产二区三区视频| 国产91免费观看| 国产的欧美一区二区三区| 色婷婷久久一区二区三区麻豆| 免费欧美一级视频| 欧美一区视频观看| 久久91精品国产91久久久| 美女被羞羞网站视频软件| 国产亚洲另类久久久精品| 国产精选一区二区| 狠狠色噜噜狠狠狠狠黑人| 日韩精品一区在线观看 | 国产一区观看| 一区二区三区四区中文字幕 | 国产美女三级无套内谢| 国产精品自产拍在线观看蜜| 首页亚洲欧美制服丝腿| 国产97免费视频| 国产www亚洲а∨天堂| 中文字幕一区二区三区四| 国产精品高潮呻吟三区四区| 久久精品国产一区二区三区| 国产日韩一区在线| 19videosex性欧美69| 久久99国产精品久久99| 国产精选一区二区| 欧美在线观看视频一区二区| 国产精品入口麻豆九色| 亚洲欧美日韩另类精品一区二区三区| 午夜av影视| 国产一二三区免费| 日本午夜一区二区| 午夜看片在线| 久久精品一| 午夜特片网| 激情久久一区二区| 国产第一区二区| 伊人精品一区二区三区| 午夜剧场伦理| 年轻bbwwbbww高潮| 少妇**毛片| 欧美乱码精品一区二区三| 男女视频一区二区三区| 狠狠色丁香久久婷婷综合_中| 国产全肉乱妇杂乱视频在线观看| 久久亚洲精品国产日韩高潮| 国产一区二区三区午夜| 国产日韩欧美91| 欧美激情片一区二区| 久久99亚洲精品久久99| 蜜臀久久久久久999| 国产精品99在线播放| 欧美日韩中文国产一区发布| 国产欧美综合一区| 精品国产一区二区三区高潮视 | 91麻豆国产自产在线观看hd | 狠狠插狠狠插| 免费超级乱淫视频播放| 99久久婷婷国产综合精品草原 | 国产一区不卡视频| 午夜社区在线观看| 亚洲精品一区中文字幕| 国内揄拍国产精品| 亚洲欧美一区二| 激情欧美一区二区三区| 欧美日韩激情一区二区| 日本免费电影一区二区三区| 午夜电影毛片| 国产日韩欧美视频| 在线观看v国产乱人精品一区二区| 国产经典一区二区三区| 精品国产乱码久久久久久图片| 欧美一区二区久久 | 国产一区日韩精品| 激情久久综合| 亚洲四区在线| 国产免费区| 狠狠色噜噜狠狠狠狠88| 国产精品久久久久免费a∨大胸| 欧美xxxxhdvideos| 爽妇色啪网| 5g影院天天爽入口入口| 午夜色大片| 精品国产二区三区| 91avpro| 日本精品一二区| 国产v亚洲v日韩v欧美v片| 国产精品色婷婷99久久精品| 国产一区网址| 热久久一区二区| 少妇久久免费视频| 国产在线干| 91午夜在线| 国产一区二区激情| 色天天综合久久久久综合片| 国产免费第一区| 国产精品国产三级国产专区52| 国产色婷婷精品综合在线播放| 少妇**毛片| 一区二区在线视频免费观看| 国产精品亚洲一区二区三区| 亚洲欧洲一区| 精品久久久久久中文字幕| 亚洲欧美国产一区二区三区 | 国产91精品高清一区二区三区| 精品国产乱码一区二区三区a| 精品国产乱码久久久久久a丨| 激情久久久| 久久国产精品99国产精| 日韩精品中文字| 欧美在线视频二区| 国产一区二区激情| 精品国产一区二区三| 电影91久久久| 日韩av在线影视| 美女脱免费看直播| 日韩午夜三级| 欧美激情在线一区二区三区| 国产乱老一区视频| 欧美精品久| 午夜精品在线观看| 欧美视屏一区二区| 久久精品国产96| 少妇性色午夜淫片aaa播放5| 午夜av男人的天堂| 亚洲欧美国产精品一区二区| 日韩欧美中文字幕精品| 国产一区二区播放| 激情久久综合| 久久国产这里只有精品| 中文字幕天天躁日日躁狠狠躁免费| 精品国产乱码久久久久久影片| 中文字幕一区二区三区免费| 国产日韩欧美不卡| 欧美乱妇高清无乱码免费| 一区精品二区国产| 右手影院av| 中文字幕一二三四五区| 夜色av网| 国产精品美女www爽爽爽视频| 久久久999精品视频| 午夜三级电影院| 精品综合久久久久| 国产69精品久久久久777| 欧美在线视频精品| 中文字幕一区二区三区四| 国产欧美视频一区二区| 精品一区二区三区视频?| 国产精品久久久久久亚洲美女高潮 | 国产视频一区二区三区四区| 国产69精品久久久久777糖心| 欧美精品日韩一区| 国产理论片午午午伦夜理片2021| xx性欧美hd| 欧美日韩三区二区| 国产精彩视频一区二区| 97涩国一产精品久久久久久久| 欧美日韩中文字幕一区二区三区| 91久久国产视频| 亚洲美女在线一区| 91精品久久久久久| 欧美一级片一区| 久久久精品99久久精品36亚| 精品亚洲午夜久久久久91| 少妇高潮大叫喷水| 日韩久久精品一区二区| 97欧美精品| 国产视频一区二区三区四区| 欧美日韩激情一区二区| 国产大学生呻吟对白精彩在线| 大bbw大bbw巨大bbw看看| 亚洲国产欧美一区二区三区丁香婷 | 国产欧美一区二区三区精品观看| 日本大码bbw肉感高潮| 91精品一区| 国产午夜精品一区理论片飘花| 91夜夜夜| 96国产精品视频| 国产三级一区二区| 午夜一区二区视频| 狠狠干一区| 狠狠色噜噜狠狠狠狠米奇777| 91久久香蕉国产日韩欧美9色| 国产精品对白刺激在线观看 | 久久第一区| 久久人91精品久久久久久不卡| 欧美乱码精品一区二区 | 国产伦精品一区二区三区电影| 亚洲精品国产一区| 91久久精品国产91久久性色tv| 久久国产精品网站| 欧美乱妇高清无乱码一级特黄| 国产精品白浆一区二区| 久久久久久亚洲精品中文字幕| 国产一二区在线观看| 国产精品久久久久久久久久软件| 狠狠插狠狠插| 国产69精品久久久久app下载| 国产一级片子| 亚洲在线久久| 91精品一区二区中文字幕| 亚洲精品色婷婷| 国产午夜一级片| 久久人做人爽一区二区三区小说| 国产精品对白刺激久久久| 国产欧美日韩一级| 国产一区2| 午夜毛片电影| 91亚洲欧美日韩精品久久奇米色| 久久午夜鲁丝片| 高清人人天天夜夜曰狠狠狠狠| 99精品国产免费久久| 鲁丝一区二区三区免费观看| 性old老妇做受| 精品久久不卡| 亚洲国产精品精品| 欧美日韩国产91| 国产精品自拍在线观看| 97久久精品人人澡人人爽| 年轻bbwwbbww高潮| 日韩a一级欧美一级在线播放| 亚洲精品老司机|