日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于文本結(jié)構(gòu)權(quán)重的主題區(qū)域識(shí)別方法無(wú)效

專利信息
申請(qǐng)?zhí)枺?/td> 201110302004.1 申請(qǐng)日: 2011-09-28
公開(kāi)(公告)號(hào): CN102306204A 公開(kāi)(公告)日: 2012-01-04
發(fā)明(設(shè)計(jì))人: 徐武平;徐愛(ài)萍;楊少博 申請(qǐng)(專利權(quán))人: 武漢大學(xué)
主分類號(hào): G06F17/30 分類號(hào): G06F17/30
代理公司: 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 代理人: 薛玲
地址: 430072 湖*** 國(guó)省代碼: 湖北;42
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 基于 文本 結(jié)構(gòu) 權(quán)重 主題 區(qū)域 識(shí)別 方法
【說(shuō)明書(shū)】:

技術(shù)領(lǐng)域

發(fā)明涉及Web數(shù)據(jù)挖掘領(lǐng)域的Web信息抽取技術(shù),特別是針對(duì)文本為主的半結(jié)構(gòu)化Web網(wǎng)頁(yè),抽取Web網(wǎng)頁(yè)中與其主題相符的文本內(nèi)容的方法。

背景技術(shù)

目前,Web信息抽取按自動(dòng)化程度分有以下三種方式:

(1)人工方法:這種方法是通過(guò)人工觀察出Web頁(yè)面的特征,然后進(jìn)行手工標(biāo)記,提取目標(biāo)信息的模式,再根據(jù)此模式有針對(duì)性的編寫(xiě)程序生成包裝器(Wrapper),然后通過(guò)Wrapper抽取目標(biāo)信息。這種方法只能針對(duì)指定站點(diǎn),不具通用性。這類系統(tǒng)要求用戶具有扎實(shí)的計(jì)算機(jī)編程基礎(chǔ)。正因?yàn)槿绱耍斯し椒ㄟm合少量站點(diǎn)的情況,無(wú)法適應(yīng)海量站點(diǎn)的場(chǎng)合。

(2)半自動(dòng)抽取:這種方式是半自動(dòng)的,相對(duì)于手工方法,這種方式減輕了人工勞動(dòng)。它通過(guò)從訓(xùn)練網(wǎng)頁(yè)中提取規(guī)則,然后將此規(guī)則應(yīng)用于與此類網(wǎng)頁(yè)相似的網(wǎng)頁(yè)中。在這種方法里,如何判斷相類似的網(wǎng)頁(yè)是關(guān)鍵。這類方法不需要用戶具有計(jì)算機(jī)專業(yè)基礎(chǔ),只需要用戶利用系統(tǒng)提供的用戶界面,輸入訓(xùn)練用例即可。國(guó)外已有許多關(guān)于這種方法的研究,典型的系統(tǒng)有WHISK、STALKER、SOFTMEALY等。WHISK[1]系統(tǒng)適合于結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和自由文本,對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),WHISK根據(jù)語(yǔ)義項(xiàng)的上下文定位目標(biāo)信息。對(duì)于自由文本,則采用分割方式處理。但是WHISK在規(guī)則學(xué)習(xí)過(guò)程中規(guī)則不能保證以最優(yōu)的方式進(jìn)行擴(kuò)展,且生成規(guī)則集的時(shí)間較長(zhǎng)。STALKER系統(tǒng)[2][3]將Web數(shù)據(jù)建模成嵌套關(guān)系,利用地標(biāo)思想,得到SkipTo(跳轉(zhuǎn))序列的抽取規(guī)則。SOFTMEALY系統(tǒng)[4]中曾用歸納學(xué)習(xí)方法學(xué)習(xí)兩個(gè)屬性間的上下文規(guī)則集來(lái)確定屬性間的順序,由元組轉(zhuǎn)換機(jī)提取信息的內(nèi)容,但效率較低。

(3)自動(dòng)抽取:這種方式起始于1998年,給定一張或者若干網(wǎng)頁(yè),程序自動(dòng)從其中發(fā)現(xiàn)規(guī)則,然后抽取目標(biāo)數(shù)據(jù)。它不需要太多人工干預(yù),因此適合于大量站點(diǎn)的情形。這類系統(tǒng)的代表有RoadRunner[5],該系統(tǒng)通過(guò)對(duì)2個(gè)或多個(gè)樣本頁(yè)面結(jié)構(gòu)的比較,提取一個(gè)利用正則表達(dá)式表示通用結(jié)構(gòu)模式,然后根據(jù)結(jié)構(gòu)模式實(shí)現(xiàn)對(duì)相似頁(yè)面的信息抽取,該系統(tǒng)利用了結(jié)構(gòu)模式中文檔對(duì)象模型(DOM,Document?Object?Model)標(biāo)記的關(guān)系,如節(jié)點(diǎn)之間的嵌套的關(guān)系。

Web信息抽取按照抽取技術(shù)路線可以分為以下幾種:

(1)基于HTML解析的數(shù)據(jù)抽取技術(shù)

基于HTML解析的數(shù)據(jù)抽取方法可以分為兩個(gè)類別,第一種是將HTML網(wǎng)頁(yè)看作是一個(gè)由HTML標(biāo)記和普通字符串構(gòu)成的序列集合。簡(jiǎn)單的說(shuō)就是把整個(gè)文檔當(dāng)成一個(gè)字符串,利用現(xiàn)在已有的通用編程語(yǔ)言如Perl,Java等設(shè)計(jì)程序?qū)Υ俗址M(jìn)行處理,以文檔字符串為輸入,利用正則表達(dá)式進(jìn)行模型匹配,輸出目標(biāo)信息字符串。這種方法是基于字符串的,沒(méi)有利用到HTML網(wǎng)頁(yè)已有的半結(jié)構(gòu)化特征,不涉及其層次結(jié)構(gòu)。STALKER是利用這種方法的典型系統(tǒng),此系統(tǒng)基于地標(biāo)思想。每一個(gè)地標(biāo)是一個(gè)連續(xù)的標(biāo)志序列,此標(biāo)志序列用于定位一個(gè)目標(biāo)項(xiàng)的開(kāi)頭或結(jié)尾。例如:對(duì)于已知文檔<p>Name:<b>Hotel?One</b></p>,則利用規(guī)則R1:SkipTo(<b>)可以識(shí)別名字的開(kāi)頭。這條規(guī)則意味著系統(tǒng)應(yīng)該從網(wǎng)頁(yè)的開(kāi)頭開(kāi)始,跳過(guò)所有的字符,直到看到第一個(gè)<b>字符串為止,此時(shí)<b>就是一個(gè)地標(biāo)。同理,識(shí)別名字的結(jié)尾可以使用規(guī)則R2:SkipTo(</b>),不同的是R2從文檔結(jié)尾應(yīng)用到文檔的開(kāi)頭。因此R1被稱為開(kāi)始規(guī)則,R2被稱為結(jié)束規(guī)則。第二種是利用HTML文檔的結(jié)構(gòu),將其轉(zhuǎn)換為一棵有層次的DOM樹(shù),然后通過(guò)分析和處理樹(shù)的層次結(jié)構(gòu),抽取所需要的數(shù)據(jù)。這類方法的常用代表系統(tǒng)有W4F[6],XWrap[7]等。

(2)基于包裝器(Wrapper)歸納的數(shù)據(jù)抽取技術(shù)

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110302004.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū);

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 日韩av一区不卡| 99久久婷婷国产亚洲终合精品| 国产日韩麻豆| 久久精品综合视频| 日本美女视频一区二区三区| 午夜爽爽爽男女免费观看| 午夜三级大片| 亚洲国产精品国自产拍av| 国产又黄又硬又湿又黄| 欧美精品在线一区二区| 午夜精品99| 国产偷亚洲偷欧美偷精品 | 欧美系列一区二区| 久久精品一| 精品视频久| 国产精品一二三四五区| 特级免费黄色片| 91精品婷婷国产综合久久竹菊 | 国产日韩欧美精品一区| 国产视频精品一区二区三区| 久久久精品欧美一区二区免费| 夜夜夜夜夜猛噜噜噜噜噜gg| 国产精欧美一区二区三区久久| 国产色午夜婷婷一区二区三区| 亚洲无人区码一码二码三码 | 亚洲女人av久久天堂| 国产一区在线视频观看| 男女无遮挡xx00动态图120秒| 夜夜躁日日躁狠狠久久av| 亚洲欧美国产精品一区二区| 国产精品伦一区二区三区级视频频| 91精品国产综合久久婷婷香| 午夜黄色网址| 国产欧美性| 欧美一级久久精品| 综合色婷婷一区二区亚洲欧美国产| 日本一区二区三区免费播放| 国产精品欧美日韩在线| 国产精品免费不卡| 偷拍自中文字av在线| 国产1区在线观看| 99re久久精品国产| 一区二区三区欧美视频| 中文字幕在线一二三区| 久久99国产综合精品| 国产99网站| 热久久一区二区| 日本亚洲国产精品| 国产高清在线一区| 日本亚洲国产精品| 欧美日韩精品在线播放| 国产高清在线观看一区| 亚洲欧美一区二区三区1000| 日本亚洲国产精品| 国产在线精品一区二区在线播放| 国产精品你懂的在线| 午夜影院伦理片| 91精品啪在线观看国产| 国产91久| 中文乱码字幕永久永久电影| 91午夜在线观看| 欧美一区二区三区在线视频播放| 99色精品视频| 日韩av在线高清| 制服丝袜视频一区| 亚洲三区二区一区| 久久精品麻豆| 午夜特级片| 久久99精品久久久野外直播内容 | 性生交大片免费看潘金莲| 九一国产精品| 日韩精品免费一区二区中文字幕| 精品久久综合1区2区3区激情| 午夜电影理伦片2023在线观看| 久久国产精彩视频| 日本精品一区二区三区视频| 日本一区二区在线电影| 欧美69精品久久久久久不卡| 大桥未久黑人强制中出| 999久久久国产精品| 精品在线观看一区二区| 国产午夜精品一区二区理论影院|