[發(fā)明專利]基于文本結(jié)構(gòu)權(quán)重的主題區(qū)域識(shí)別方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201110302004.1 | 申請(qǐng)日: | 2011-09-28 |
| 公開(kāi)(公告)號(hào): | CN102306204A | 公開(kāi)(公告)日: | 2012-01-04 |
| 發(fā)明(設(shè)計(jì))人: | 徐武平;徐愛(ài)萍;楊少博 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 結(jié)構(gòu) 權(quán)重 主題 區(qū)域 識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及Web數(shù)據(jù)挖掘領(lǐng)域的Web信息抽取技術(shù),特別是針對(duì)文本為主的半結(jié)構(gòu)化Web網(wǎng)頁(yè),抽取Web網(wǎng)頁(yè)中與其主題相符的文本內(nèi)容的方法。
背景技術(shù)
目前,Web信息抽取按自動(dòng)化程度分有以下三種方式:
(1)人工方法:這種方法是通過(guò)人工觀察出Web頁(yè)面的特征,然后進(jìn)行手工標(biāo)記,提取目標(biāo)信息的模式,再根據(jù)此模式有針對(duì)性的編寫(xiě)程序生成包裝器(Wrapper),然后通過(guò)Wrapper抽取目標(biāo)信息。這種方法只能針對(duì)指定站點(diǎn),不具通用性。這類系統(tǒng)要求用戶具有扎實(shí)的計(jì)算機(jī)編程基礎(chǔ)。正因?yàn)槿绱耍斯し椒ㄟm合少量站點(diǎn)的情況,無(wú)法適應(yīng)海量站點(diǎn)的場(chǎng)合。
(2)半自動(dòng)抽取:這種方式是半自動(dòng)的,相對(duì)于手工方法,這種方式減輕了人工勞動(dòng)。它通過(guò)從訓(xùn)練網(wǎng)頁(yè)中提取規(guī)則,然后將此規(guī)則應(yīng)用于與此類網(wǎng)頁(yè)相似的網(wǎng)頁(yè)中。在這種方法里,如何判斷相類似的網(wǎng)頁(yè)是關(guān)鍵。這類方法不需要用戶具有計(jì)算機(jī)專業(yè)基礎(chǔ),只需要用戶利用系統(tǒng)提供的用戶界面,輸入訓(xùn)練用例即可。國(guó)外已有許多關(guān)于這種方法的研究,典型的系統(tǒng)有WHISK、STALKER、SOFTMEALY等。WHISK[1]系統(tǒng)適合于結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和自由文本,對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),WHISK根據(jù)語(yǔ)義項(xiàng)的上下文定位目標(biāo)信息。對(duì)于自由文本,則采用分割方式處理。但是WHISK在規(guī)則學(xué)習(xí)過(guò)程中規(guī)則不能保證以最優(yōu)的方式進(jìn)行擴(kuò)展,且生成規(guī)則集的時(shí)間較長(zhǎng)。STALKER系統(tǒng)[2][3]將Web數(shù)據(jù)建模成嵌套關(guān)系,利用地標(biāo)思想,得到SkipTo(跳轉(zhuǎn))序列的抽取規(guī)則。SOFTMEALY系統(tǒng)[4]中曾用歸納學(xué)習(xí)方法學(xué)習(xí)兩個(gè)屬性間的上下文規(guī)則集來(lái)確定屬性間的順序,由元組轉(zhuǎn)換機(jī)提取信息的內(nèi)容,但效率較低。
(3)自動(dòng)抽取:這種方式起始于1998年,給定一張或者若干網(wǎng)頁(yè),程序自動(dòng)從其中發(fā)現(xiàn)規(guī)則,然后抽取目標(biāo)數(shù)據(jù)。它不需要太多人工干預(yù),因此適合于大量站點(diǎn)的情形。這類系統(tǒng)的代表有RoadRunner[5],該系統(tǒng)通過(guò)對(duì)2個(gè)或多個(gè)樣本頁(yè)面結(jié)構(gòu)的比較,提取一個(gè)利用正則表達(dá)式表示通用結(jié)構(gòu)模式,然后根據(jù)結(jié)構(gòu)模式實(shí)現(xiàn)對(duì)相似頁(yè)面的信息抽取,該系統(tǒng)利用了結(jié)構(gòu)模式中文檔對(duì)象模型(DOM,Document?Object?Model)標(biāo)記的關(guān)系,如節(jié)點(diǎn)之間的嵌套的關(guān)系。
Web信息抽取按照抽取技術(shù)路線可以分為以下幾種:
(1)基于HTML解析的數(shù)據(jù)抽取技術(shù)
基于HTML解析的數(shù)據(jù)抽取方法可以分為兩個(gè)類別,第一種是將HTML網(wǎng)頁(yè)看作是一個(gè)由HTML標(biāo)記和普通字符串構(gòu)成的序列集合。簡(jiǎn)單的說(shuō)就是把整個(gè)文檔當(dāng)成一個(gè)字符串,利用現(xiàn)在已有的通用編程語(yǔ)言如Perl,Java等設(shè)計(jì)程序?qū)Υ俗址M(jìn)行處理,以文檔字符串為輸入,利用正則表達(dá)式進(jìn)行模型匹配,輸出目標(biāo)信息字符串。這種方法是基于字符串的,沒(méi)有利用到HTML網(wǎng)頁(yè)已有的半結(jié)構(gòu)化特征,不涉及其層次結(jié)構(gòu)。STALKER是利用這種方法的典型系統(tǒng),此系統(tǒng)基于地標(biāo)思想。每一個(gè)地標(biāo)是一個(gè)連續(xù)的標(biāo)志序列,此標(biāo)志序列用于定位一個(gè)目標(biāo)項(xiàng)的開(kāi)頭或結(jié)尾。例如:對(duì)于已知文檔<p>Name:<b>Hotel?One</b></p>,則利用規(guī)則R1:SkipTo(<b>)可以識(shí)別名字的開(kāi)頭。這條規(guī)則意味著系統(tǒng)應(yīng)該從網(wǎng)頁(yè)的開(kāi)頭開(kāi)始,跳過(guò)所有的字符,直到看到第一個(gè)<b>字符串為止,此時(shí)<b>就是一個(gè)地標(biāo)。同理,識(shí)別名字的結(jié)尾可以使用規(guī)則R2:SkipTo(</b>),不同的是R2從文檔結(jié)尾應(yīng)用到文檔的開(kāi)頭。因此R1被稱為開(kāi)始規(guī)則,R2被稱為結(jié)束規(guī)則。第二種是利用HTML文檔的結(jié)構(gòu),將其轉(zhuǎn)換為一棵有層次的DOM樹(shù),然后通過(guò)分析和處理樹(shù)的層次結(jié)構(gòu),抽取所需要的數(shù)據(jù)。這類方法的常用代表系統(tǒng)有W4F[6],XWrap[7]等。
(2)基于包裝器(Wrapper)歸納的數(shù)據(jù)抽取技術(shù)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110302004.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁(yè)主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重?cái)?shù)據(jù)存儲(chǔ)方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲(chǔ)介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對(duì)深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)





