[發(fā)明專利]基于文本結(jié)構(gòu)權(quán)重的主題區(qū)域識(shí)別方法無(wú)效

申請(qǐng)?zhí)枺?/td>	201110302004.1	申請(qǐng)日：	2011-09-28
公開(kāi)（公告）號(hào)：	CN102306204A	公開(kāi)（公告）日：	2012-01-04
發(fā)明（設(shè)計(jì)）人：	徐武平;徐愛(ài)萍;楊少博	申請(qǐng)（專利權(quán)）人：	武漢大學(xué)
主分類號(hào)：	G06F17/30	分類號(hào)：	G06F17/30
代理公司：	武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222	代理人：	薛玲
地址：	430072 湖***	國(guó)省代碼：	湖北;42
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	基于文本結(jié)構(gòu) 權(quán)重主題區(qū)域識(shí)別方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

技術(shù)領(lǐng)域

本發(fā)明涉及Web數(shù)據(jù)挖掘領(lǐng)域的Web信息抽取技術(shù)，特別是針對(duì)文本為主的半結(jié)構(gòu)化Web網(wǎng)頁(yè)，抽取Web網(wǎng)頁(yè)中與其主題相符的文本內(nèi)容的方法。

背景技術(shù)

目前，Web信息抽取按自動(dòng)化程度分有以下三種方式：

(1)人工方法：這種方法是通過(guò)人工觀察出Web頁(yè)面的特征，然后進(jìn)行手工標(biāo)記，提取目標(biāo)信息的模式，再根據(jù)此模式有針對(duì)性的編寫(xiě)程序生成包裝器(Wrapper)，然后通過(guò)Wrapper抽取目標(biāo)信息。這種方法只能針對(duì)指定站點(diǎn)，不具通用性。這類系統(tǒng)要求用戶具有扎實(shí)的計(jì)算機(jī)編程基礎(chǔ)。正因?yàn)槿绱耍斯し椒ㄟm合少量站點(diǎn)的情況，無(wú)法適應(yīng)海量站點(diǎn)的場(chǎng)合。

(2)半自動(dòng)抽取：這種方式是半自動(dòng)的，相對(duì)于手工方法，這種方式減輕了人工勞動(dòng)。它通過(guò)從訓(xùn)練網(wǎng)頁(yè)中提取規(guī)則，然后將此規(guī)則應(yīng)用于與此類網(wǎng)頁(yè)相似的網(wǎng)頁(yè)中。在這種方法里，如何判斷相類似的網(wǎng)頁(yè)是關(guān)鍵。這類方法不需要用戶具有計(jì)算機(jī)專業(yè)基礎(chǔ)，只需要用戶利用系統(tǒng)提供的用戶界面，輸入訓(xùn)練用例即可。國(guó)外已有許多關(guān)于這種方法的研究，典型的系統(tǒng)有WHISK、STALKER、SOFTMEALY等。WHISK^[1]系統(tǒng)適合于結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和自由文本，對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，WHISK根據(jù)語(yǔ)義項(xiàng)的上下文定位目標(biāo)信息。對(duì)于自由文本，則采用分割方式處理。但是WHISK在規(guī)則學(xué)習(xí)過(guò)程中規(guī)則不能保證以最優(yōu)的方式進(jìn)行擴(kuò)展，且生成規(guī)則集的時(shí)間較長(zhǎng)。STALKER系統(tǒng)^[2][3]將Web數(shù)據(jù)建模成嵌套關(guān)系，利用地標(biāo)思想，得到SkipTo(跳轉(zhuǎn))序列的抽取規(guī)則。SOFTMEALY系統(tǒng)^[4]中曾用歸納學(xué)習(xí)方法學(xué)習(xí)兩個(gè)屬性間的上下文規(guī)則集來(lái)確定屬性間的順序，由元組轉(zhuǎn)換機(jī)提取信息的內(nèi)容，但效率較低。

(3)自動(dòng)抽取：這種方式起始于1998年，給定一張或者若干網(wǎng)頁(yè)，程序自動(dòng)從其中發(fā)現(xiàn)規(guī)則，然后抽取目標(biāo)數(shù)據(jù)。它不需要太多人工干預(yù)，因此適合于大量站點(diǎn)的情形。這類系統(tǒng)的代表有RoadRunner^[5]，該系統(tǒng)通過(guò)對(duì)2個(gè)或多個(gè)樣本頁(yè)面結(jié)構(gòu)的比較，提取一個(gè)利用正則表達(dá)式表示通用結(jié)構(gòu)模式，然后根據(jù)結(jié)構(gòu)模式實(shí)現(xiàn)對(duì)相似頁(yè)面的信息抽取，該系統(tǒng)利用了結(jié)構(gòu)模式中文檔對(duì)象模型(DOM，Document?Object?Model)標(biāo)記的關(guān)系，如節(jié)點(diǎn)之間的嵌套的關(guān)系。

Web信息抽取按照抽取技術(shù)路線可以分為以下幾種：

(1)基于HTML解析的數(shù)據(jù)抽取技術(shù)

基于HTML解析的數(shù)據(jù)抽取方法可以分為兩個(gè)類別，第一種是將HTML網(wǎng)頁(yè)看作是一個(gè)由HTML標(biāo)記和普通字符串構(gòu)成的序列集合。簡(jiǎn)單的說(shuō)就是把整個(gè)文檔當(dāng)成一個(gè)字符串，利用現(xiàn)在已有的通用編程語(yǔ)言如Perl，Java等設(shè)計(jì)程序?qū)Υ俗址M(jìn)行處理，以文檔字符串為輸入，利用正則表達(dá)式進(jìn)行模型匹配，輸出目標(biāo)信息字符串。這種方法是基于字符串的，沒(méi)有利用到HTML網(wǎng)頁(yè)已有的半結(jié)構(gòu)化特征，不涉及其層次結(jié)構(gòu)。STALKER是利用這種方法的典型系統(tǒng)，此系統(tǒng)基于地標(biāo)思想。每一個(gè)地標(biāo)是一個(gè)連續(xù)的標(biāo)志序列，此標(biāo)志序列用于定位一個(gè)目標(biāo)項(xiàng)的開(kāi)頭或結(jié)尾。例如：對(duì)于已知文檔Name：Hotel?One，則利用規(guī)則R1：SkipTo()可以識(shí)別名字的開(kāi)頭。這條規(guī)則意味著系統(tǒng)應(yīng)該從網(wǎng)頁(yè)的開(kāi)頭開(kāi)始，跳過(guò)所有的字符，直到看到第一個(gè)字符串為止，此時(shí)就是一個(gè)地標(biāo)。同理，識(shí)別名字的結(jié)尾可以使用規(guī)則R2：SkipTo()，不同的是R2從文檔結(jié)尾應(yīng)用到文檔的開(kāi)頭。因此R1被稱為開(kāi)始規(guī)則，R2被稱為結(jié)束規(guī)則。第二種是利用HTML文檔的結(jié)構(gòu)，將其轉(zhuǎn)換為一棵有層次的DOM樹(shù)，然后通過(guò)分析和處理樹(shù)的層次結(jié)構(gòu)，抽取所需要的數(shù)據(jù)。這類方法的常用代表系統(tǒng)有W4F^[6]，XWrap^[7]等。

(2)基于包裝器(Wrapper)歸納的數(shù)據(jù)抽取技術(shù)

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué)，未經(jīng)武漢大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110302004.1/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種高效陶瓷復(fù)合金屬新燈具
下一篇：一種模擬鉆井工況的多沖斷裂韌性測(cè)試方法及裝置

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

[發(fā)明專利]基于文本結(jié)構(gòu)權(quán)重的主題區(qū)域識(shí)別方法無(wú)效

專利文獻(xiàn)下載