[發(fā)明專(zhuān)利]一種DeepWeb響應(yīng)頁(yè)面數(shù)據(jù)抽取方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200910010201.9 | 申請(qǐng)日: | 2009-01-21 |
| 公開(kāi)(公告)號(hào): | CN101582074A | 公開(kāi)(公告)日: | 2009-11-18 |
| 發(fā)明(設(shè)計(jì))人: | 申德榮;于戈;孫高尚;聶鐵錚;寇月;王振華 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東北大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 沈陽(yáng)東大專(zhuān)利代理有限公司 | 代理人: | 李運(yùn)萍 |
| 地址: | 110004遼寧省*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 deepweb 響應(yīng) 頁(yè)面 數(shù)據(jù) 抽取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于深層網(wǎng)絡(luò)數(shù)據(jù)管理領(lǐng)域,特別涉及一種DeepWeb響應(yīng)頁(yè)面數(shù)據(jù)抽取方法。
背景技術(shù)
隨著Web的發(fā)展,Web上的信息呈爆炸式增長(zhǎng)。Web按其所含信息的深度可分為SurfaceWeb和Deep?Web(深層網(wǎng)絡(luò))兩大部分。Surface?Web是指可以通過(guò)超鏈接被傳統(tǒng)的搜索引擎索引到的頁(yè)面的集合;而Deep?Web是指Web中不能被傳統(tǒng)的搜索引擎索引到的那部分內(nèi)容,只能通過(guò)在查詢(xún)接口動(dòng)態(tài)提交查詢(xún)來(lái)訪(fǎng)問(wèn)Web中的內(nèi)容。隨著Deep?Web數(shù)據(jù)源數(shù)量的增加,其重要性日趨突現(xiàn)。因?yàn)檫@些數(shù)據(jù)源中蘊(yùn)含了大量的高質(zhì)量的結(jié)構(gòu)化信息。然而,這些數(shù)據(jù)源只能通過(guò)其查詢(xún)接口訪(fǎng)問(wèn),最終返回一系列包含大量半結(jié)構(gòu)化信息的Web頁(yè)面,因此如何自動(dòng)而準(zhǔn)確地抽取這些高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)給人們提出了挑戰(zhàn)。近年來(lái),較為典型的方法有RoadRunner、MDR、MDR?II、ViNTs、ViPER等。
RoadRunner是一個(gè)包裝器歸納系統(tǒng),其方法是進(jìn)一步發(fā)掘Html文檔內(nèi)在的特征,通過(guò)對(duì)比樣本頁(yè)面間的異同來(lái)生成抽取規(guī)則,并通過(guò)比較樣本頁(yè)面的標(biāo)簽結(jié)構(gòu)來(lái)識(shí)別結(jié)構(gòu)之間的不匹配。RoadRunner可以分析出模式中的可選屬性和嵌套屬性(可以在一條記錄中重復(fù)出現(xiàn)多次屬性),但其推導(dǎo)時(shí)間復(fù)雜性為指數(shù)級(jí),抽取代價(jià)高。
MDR和MDRII都是基于DOM?Tree結(jié)構(gòu)特征,完成對(duì)多記錄頁(yè)面的抽取。它們實(shí)現(xiàn)的關(guān)鍵在于利用頁(yè)面的嵌套結(jié)構(gòu)和表現(xiàn)特征把查詢(xún)結(jié)果從整個(gè)頁(yè)面中分離出來(lái),并精確地劃分結(jié)果中的多個(gè)記錄。MDR把標(biāo)簽樹(shù)中節(jié)點(diǎn)的路徑看作一個(gè)字符串,并使用字符串編輯距離從數(shù)據(jù)區(qū)中發(fā)現(xiàn)數(shù)據(jù)記錄結(jié)點(diǎn);MDRII是以樹(shù)的結(jié)構(gòu)信息代替標(biāo)簽字符串,可更準(zhǔn)確地識(shí)別數(shù)據(jù)記錄。該類(lèi)方法適合于DOM結(jié)構(gòu)簡(jiǎn)單的頁(yè)面,對(duì)DOM?Tree結(jié)構(gòu)復(fù)雜、數(shù)據(jù)區(qū)內(nèi)噪聲節(jié)點(diǎn)過(guò)多的結(jié)果頁(yè)面不適合,并且不支持嵌套結(jié)構(gòu)的數(shù)據(jù)。
ViNTs和ViPER都是基于可視化特征的抽取方法。該類(lèi)方法需要建立一個(gè)有效的可視化模型,模擬人眼對(duì)頁(yè)面的識(shí)別過(guò)程。其識(shí)別效率低于直接分析頁(yè)面文檔的識(shí)別方法。當(dāng)頁(yè)面沒(méi)有明顯的視覺(jué)特征時(shí),抽取精度會(huì)變得很低。
發(fā)明內(nèi)容
針對(duì)已有DeepWeb響應(yīng)頁(yè)面數(shù)據(jù)抽取方法的不足,本發(fā)明提供了一種DeepWeb響應(yīng)頁(yè)面數(shù)據(jù)抽取方法。本發(fā)明采用的技術(shù)方案是,包括以下步驟:步驟(1)選取DeepWeb響應(yīng)頁(yè)面Page;在查詢(xún)頁(yè)面輸入關(guān)鍵字Key,查詢(xún)得到響應(yīng)頁(yè)面Page,響應(yīng)頁(yè)面Page是HTML語(yǔ)法描述的字符串?dāng)?shù)組,用DOM解析工具(采用HTML?Parser)將HTML字符串轉(zhuǎn)化為DOM樹(shù)結(jié)構(gòu),DOM樹(shù)中的結(jié)點(diǎn)定義:(N,Kn,Wn,Tn),其中N表示結(jié)點(diǎn)N,Kn表示結(jié)點(diǎn)N包含關(guān)鍵字的個(gè)數(shù),Wn表示結(jié)點(diǎn)N中包含關(guān)鍵字的孩子結(jié)點(diǎn)的個(gè)數(shù),Tn表示結(jié)點(diǎn)N的文本內(nèi)容,則DOM樹(shù)結(jié)構(gòu)描述為:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910010201.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:行星齒輪擺轉(zhuǎn)機(jī)構(gòu)
- 下一篇:新型水泵
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于最小可查詢(xún)模式的Deep Web自適應(yīng)爬取方法
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 一種DeepWeb響應(yīng)頁(yè)面數(shù)據(jù)抽取方法
- 基于語(yǔ)義關(guān)聯(lián)網(wǎng)絡(luò)的跨模信息檢索方法
- 一種基于高頻字圖模型的Deep Web數(shù)據(jù)爬取方法
- 基于查詢(xún)接口屬性特征的Deep Web數(shù)據(jù)表面化方法
- 一種基于Hadoop平臺(tái)的DeepWeb查詢(xún)接口聚類(lèi)方法
- 基于屬性共現(xiàn)模式的DeepWeb查詢(xún)接口模式匹配方法
- 一種面向Deep Web的自適應(yīng)增量數(shù)據(jù)采集方法
- 時(shí)刻響應(yīng)
- 第一響應(yīng)和第二響應(yīng)
- 需求響應(yīng)方法和需求響應(yīng)系統(tǒng)
- 響應(yīng)裝置及其集成電路、響應(yīng)方法及響應(yīng)系統(tǒng)
- 響應(yīng)處理方法及響應(yīng)處理裝置
- 響應(yīng)裝置及網(wǎng)絡(luò)響應(yīng)方法
- 響應(yīng)生成方法、響應(yīng)生成裝置和響應(yīng)生成程序
- 響應(yīng)車(chē)輛、響應(yīng)車(chē)輛管理系統(tǒng)和響應(yīng)車(chē)輛控制系統(tǒng)
- 斷電響應(yīng)
- 響應(yīng)裝置、響應(yīng)方法及存儲(chǔ)介質(zhì)
- 一種用于確定目標(biāo)頁(yè)面的頁(yè)面類(lèi)型信息的方法和設(shè)備
- 一種用于識(shí)別WAP頁(yè)面的方法與設(shè)備
- 一種Web App加載方法及裝置
- 單頁(yè)面處理方法及裝置
- 確定原生頁(yè)面和H5頁(yè)面訪(fǎng)問(wèn)次序的方法、裝置和系統(tǒng)
- 頁(yè)面生成方法及裝置
- 一種頁(yè)面對(duì)象自動(dòng)化測(cè)試方法
- 頁(yè)面生成方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種相似網(wǎng)絡(luò)頁(yè)面的搜索方法及設(shè)備
- 頁(yè)面管理方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





