[發(fā)明專利]一種半結(jié)構(gòu)化Web信息抽取技術(shù)的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410540602.6 | 申請(qǐng)日: | 2014-10-14 |
| 公開(公告)號(hào): | CN105574016A | 公開(公告)日: | 2016-05-11 |
| 發(fā)明(設(shè)計(jì))人: | 不公告發(fā)明人 | 申請(qǐng)(專利權(quán))人: | 鎮(zhèn)江鼎拓科技信息有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 212009 江蘇省鎮(zhèn)江市鎮(zhèn)*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)構(gòu) web 信息 抽取 技術(shù) 方法 | ||
技術(shù)領(lǐng)域
一種半結(jié)構(gòu)化Web信息抽取技術(shù)的方法主要涉及計(jì)算機(jī)應(yīng)用開發(fā)領(lǐng)域。
背景技術(shù)
隨著Intemet的飛速發(fā)展,Web已經(jīng)發(fā)展成為一個(gè)巨大的、分布和共享的信息資源,但目前Web數(shù)據(jù)犬都阻HTML形式出現(xiàn),缺乏對(duì)數(shù)據(jù)本身的描述,不含清晰的語(yǔ)義信息,模式也不明確,結(jié)構(gòu)上也不良好。
這使得應(yīng)用程序無(wú)法直接解析并利用web上的海量信息,為了增強(qiáng)Web數(shù)據(jù)的可用性,出現(xiàn)了Web信息抽取技術(shù),它通過包裝現(xiàn)有Web信息源,將網(wǎng)頁(yè)上的信息以更為結(jié)構(gòu)化的方式抽取出米,為慮用程序利用Web中的數(shù)據(jù)提供了可能。現(xiàn)有的Web的信息抽取技術(shù)不但可以直接定位到用戶所需的信息,而且采用。定的方式增加了語(yǔ)義和模式信息,為web查詢提供了更為精確的方法,使Web信息的再利用成為可能,岡此有著明顯的優(yōu)勢(shì)和廣闊的前景,是當(dāng)今多個(gè)領(lǐng)域的研究熱點(diǎn)。
在信息獲取的方面,Web信息抽取和瀏覽器上的信息檢索和奇詢有著本質(zhì)上的差異,并且處理信息的粒度也不相同。現(xiàn)有的搜索引擎只能根據(jù)用戶提交的關(guān)鍵詞返回一一組URLs,用戶必須逐一瀏覽URL對(duì)應(yīng)的Web頁(yè),采用人工的方式定位最終信息,現(xiàn)有的搜索引擎本身不能直接定位到所需的數(shù)據(jù),更談不上為數(shù)據(jù)增加語(yǔ)義。另外目前很多網(wǎng)站提供對(duì)自身所提供的信息的查詢功能,允許用戶直接提交查詢條件或關(guān)鍵詞,然后系統(tǒng)在后臺(tái)根據(jù)查詢條件或關(guān)鍵詞的“OR,AND”范式形式在后臺(tái)數(shù)據(jù)庫(kù)執(zhí)行查詢,最后可以直接返回給用戶所需的信息,但是為了顯示仍以HTML形式出現(xiàn),缺乏模式信息,應(yīng)崩程序仍舊無(wú)法直接利用這些信息,于是HTML語(yǔ)言的局限性就表現(xiàn)出來。另9l-I*t戶沒有直接訪問網(wǎng)站后臺(tái)數(shù)據(jù)庫(kù)的權(quán)限,如果網(wǎng)站根本不提供查詢功能或者查詢的信息不是用戶需要的信息,崩戶對(duì)此無(wú)能為力。于是對(duì)于Web信息的抽取成為一件迫切需要研究的一個(gè)熱點(diǎn)課題。
隨著需求的增加,進(jìn)米涌現(xiàn)出了多種信息抽取工具,采用的技術(shù)也各不相同,涉及多個(gè)研究領(lǐng)域,如:數(shù)據(jù)庫(kù)、人工智能、信息檢索等。
發(fā)明內(nèi)容
通過國(guó)家專利檢索沒有發(fā)現(xiàn)關(guān)于此系統(tǒng)方面的申請(qǐng)資料。
本方法主要是如何將基于HTML文檔的半結(jié)構(gòu)化Web信息抽取出來,將它們轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并且保存到關(guān)系數(shù)據(jù)庫(kù)。
一、半結(jié)構(gòu)化Web信息抽取方法主要包括數(shù)據(jù)獲取、抽取規(guī)則定義和規(guī)則執(zhí)行三個(gè)方面,這里所指的半結(jié)構(gòu)化數(shù)據(jù)指半結(jié)構(gòu)化的HTML頁(yè)面。
1.數(shù)據(jù)獲取:下載指定的URL頁(yè)而數(shù)據(jù),為接來的網(wǎng)負(fù)數(shù)據(jù)抽取作好準(zhǔn)備。其中涉及到網(wǎng)站的登錄問題。有些網(wǎng)站必須登錄(注冊(cè)厲獲得用戶名/密碼對(duì))后才有訪問其某一網(wǎng)頁(yè)的權(quán)限,這樣就要求用戶指定登錄URL(該URL包括用戶名和密碼),以成功訪問目的網(wǎng)頁(yè)。本原型系統(tǒng)采用GET方式代替POST方式解決網(wǎng)站的登錄和參數(shù)傳遞問題。
2.抽取規(guī)則定義:抽取規(guī)則定義由用戶根據(jù)自己的需求來進(jìn)行。在這一階段,要求崩戶能夠根據(jù)樣例Web頁(yè)面完成抽取規(guī)則的定義任務(wù),即:完成目的表模式設(shè)計(jì)和數(shù)據(jù)源到目的表結(jié)構(gòu)的模式映射設(shè)計(jì)兩部分。完成的思路如下:系統(tǒng)首先根據(jù)用戶指定的URL獲取樣例網(wǎng)頁(yè)數(shù)據(jù)并且將該網(wǎng)頁(yè)利用HTMLTidy轉(zhuǎn)換為XML(實(shí)際為XHTML),并且利用XMLParser將該XML文檔解析為DOM(DocumentObjectModel)樹,這樣DOM樹就成為Web網(wǎng)頁(yè)在系統(tǒng)內(nèi)部的表示方式。而對(duì)于用戶而言,只將該樣例網(wǎng)頁(yè)直觀的展示給用戶。當(dāng)進(jìn)行模式定義時(shí),只需對(duì)所看到的感興趣數(shù)據(jù)進(jìn)行拖放即可生成模式定義文件,該文件即為待抽取網(wǎng)頁(yè)的抽取規(guī)則,其中主要慮用了XML的相關(guān)技術(shù)。而抽取規(guī)則如何生成是原型系統(tǒng)的核心問題。
3.規(guī)則執(zhí)行:利用上一步產(chǎn)生的抽取規(guī)則,系統(tǒng)可以對(duì)用戶指定的URL集合進(jìn)行真止的數(shù)據(jù)抽取。過程如F:對(duì)于某一URL,首先獲取該網(wǎng)頁(yè)數(shù)據(jù),將已經(jīng)定義好的規(guī)則對(duì)該網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抽取過濾,輸出結(jié)果數(shù)據(jù),放入已經(jīng)定義好的目的表模式中,至此完成Web數(shù)據(jù)的信息抽取T作。值得強(qiáng)調(diào)指出,抽取得到的結(jié)果數(shù)據(jù)集是完全結(jié)構(gòu)化的,這樣就大大增強(qiáng)了Web數(shù)據(jù)的可用性。
4.已有基礎(chǔ):該ETL工具實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化的文本數(shù)據(jù)的抽取轉(zhuǎn)換和加載工作。半結(jié)構(gòu)化的Web信息抽取可以看作對(duì)ETL上具的功能擴(kuò)充。在本文的末尾介紹了Web信息抽取技術(shù)和ETL系統(tǒng)的關(guān)系。
二、XML數(shù)據(jù)模型與半結(jié)構(gòu)化數(shù)據(jù)之間的對(duì)應(yīng)是非常明顯的,許多半結(jié)構(gòu)化數(shù)據(jù)模型的研究可以容易地應(yīng)用到XML數(shù)據(jù)上。將OEM模型稍加改動(dòng),就可以用來表示XML數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鎮(zhèn)江鼎拓科技信息有限公司,未經(jīng)鎮(zhèn)江鼎拓科技信息有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410540602.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁(yè)中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實(shí)現(xiàn)方法
- 一種WEB業(yè)務(wù)實(shí)現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點(diǎn)轉(zhuǎn)換為目標(biāo)web app站點(diǎn)的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報(bào)告生成方法、裝置、設(shè)備及計(jì)算機(jī)介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





