日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種半結(jié)構(gòu)化Web信息抽取技術(shù)的方法在審

專利信息
申請(qǐng)?zhí)枺?/td> 201410540602.6 申請(qǐng)日: 2014-10-14
公開(公告)號(hào): CN105574016A 公開(公告)日: 2016-05-11
發(fā)明(設(shè)計(jì))人: 不公告發(fā)明人 申請(qǐng)(專利權(quán))人: 鎮(zhèn)江鼎拓科技信息有限公司
主分類號(hào): G06F17/30 分類號(hào): G06F17/30
代理公司: 暫無(wú)信息 代理人: 暫無(wú)信息
地址: 212009 江蘇省鎮(zhèn)江市鎮(zhèn)*** 國(guó)省代碼: 江蘇;32
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 結(jié)構(gòu) web 信息 抽取 技術(shù) 方法
【說明書】:

技術(shù)領(lǐng)域

一種半結(jié)構(gòu)化Web信息抽取技術(shù)的方法主要涉及計(jì)算機(jī)應(yīng)用開發(fā)領(lǐng)域。

背景技術(shù)

隨著Intemet的飛速發(fā)展,Web已經(jīng)發(fā)展成為一個(gè)巨大的、分布和共享的信息資源,但目前Web數(shù)據(jù)犬都阻HTML形式出現(xiàn),缺乏對(duì)數(shù)據(jù)本身的描述,不含清晰的語(yǔ)義信息,模式也不明確,結(jié)構(gòu)上也不良好。

這使得應(yīng)用程序無(wú)法直接解析并利用web上的海量信息,為了增強(qiáng)Web數(shù)據(jù)的可用性,出現(xiàn)了Web信息抽取技術(shù),它通過包裝現(xiàn)有Web信息源,將網(wǎng)頁(yè)上的信息以更為結(jié)構(gòu)化的方式抽取出米,為慮用程序利用Web中的數(shù)據(jù)提供了可能。現(xiàn)有的Web的信息抽取技術(shù)不但可以直接定位到用戶所需的信息,而且采用。定的方式增加了語(yǔ)義和模式信息,為web查詢提供了更為精確的方法,使Web信息的再利用成為可能,岡此有著明顯的優(yōu)勢(shì)和廣闊的前景,是當(dāng)今多個(gè)領(lǐng)域的研究熱點(diǎn)。

在信息獲取的方面,Web信息抽取和瀏覽器上的信息檢索和奇詢有著本質(zhì)上的差異,并且處理信息的粒度也不相同。現(xiàn)有的搜索引擎只能根據(jù)用戶提交的關(guān)鍵詞返回一一組URLs,用戶必須逐一瀏覽URL對(duì)應(yīng)的Web頁(yè),采用人工的方式定位最終信息,現(xiàn)有的搜索引擎本身不能直接定位到所需的數(shù)據(jù),更談不上為數(shù)據(jù)增加語(yǔ)義。另外目前很多網(wǎng)站提供對(duì)自身所提供的信息的查詢功能,允許用戶直接提交查詢條件或關(guān)鍵詞,然后系統(tǒng)在后臺(tái)根據(jù)查詢條件或關(guān)鍵詞的“OR,AND”范式形式在后臺(tái)數(shù)據(jù)庫(kù)執(zhí)行查詢,最后可以直接返回給用戶所需的信息,但是為了顯示仍以HTML形式出現(xiàn),缺乏模式信息,應(yīng)崩程序仍舊無(wú)法直接利用這些信息,于是HTML語(yǔ)言的局限性就表現(xiàn)出來。另9l-I*t戶沒有直接訪問網(wǎng)站后臺(tái)數(shù)據(jù)庫(kù)的權(quán)限,如果網(wǎng)站根本不提供查詢功能或者查詢的信息不是用戶需要的信息,崩戶對(duì)此無(wú)能為力。于是對(duì)于Web信息的抽取成為一件迫切需要研究的一個(gè)熱點(diǎn)課題。

隨著需求的增加,進(jìn)米涌現(xiàn)出了多種信息抽取工具,采用的技術(shù)也各不相同,涉及多個(gè)研究領(lǐng)域,如:數(shù)據(jù)庫(kù)、人工智能、信息檢索等。

發(fā)明內(nèi)容

通過國(guó)家專利檢索沒有發(fā)現(xiàn)關(guān)于此系統(tǒng)方面的申請(qǐng)資料。

本方法主要是如何將基于HTML文檔的半結(jié)構(gòu)化Web信息抽取出來,將它們轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并且保存到關(guān)系數(shù)據(jù)庫(kù)。

一、半結(jié)構(gòu)化Web信息抽取方法主要包括數(shù)據(jù)獲取、抽取規(guī)則定義和規(guī)則執(zhí)行三個(gè)方面,這里所指的半結(jié)構(gòu)化數(shù)據(jù)指半結(jié)構(gòu)化的HTML頁(yè)面。

1.數(shù)據(jù)獲取:下載指定的URL頁(yè)而數(shù)據(jù),為接來的網(wǎng)負(fù)數(shù)據(jù)抽取作好準(zhǔn)備。其中涉及到網(wǎng)站的登錄問題。有些網(wǎng)站必須登錄(注冊(cè)厲獲得用戶名/密碼對(duì))后才有訪問其某一網(wǎng)頁(yè)的權(quán)限,這樣就要求用戶指定登錄URL(該URL包括用戶名和密碼),以成功訪問目的網(wǎng)頁(yè)。本原型系統(tǒng)采用GET方式代替POST方式解決網(wǎng)站的登錄和參數(shù)傳遞問題。

2.抽取規(guī)則定義:抽取規(guī)則定義由用戶根據(jù)自己的需求來進(jìn)行。在這一階段,要求崩戶能夠根據(jù)樣例Web頁(yè)面完成抽取規(guī)則的定義任務(wù),即:完成目的表模式設(shè)計(jì)和數(shù)據(jù)源到目的表結(jié)構(gòu)的模式映射設(shè)計(jì)兩部分。完成的思路如下:系統(tǒng)首先根據(jù)用戶指定的URL獲取樣例網(wǎng)頁(yè)數(shù)據(jù)并且將該網(wǎng)頁(yè)利用HTMLTidy轉(zhuǎn)換為XML(實(shí)際為XHTML),并且利用XMLParser將該XML文檔解析為DOM(DocumentObjectModel)樹,這樣DOM樹就成為Web網(wǎng)頁(yè)在系統(tǒng)內(nèi)部的表示方式。而對(duì)于用戶而言,只將該樣例網(wǎng)頁(yè)直觀的展示給用戶。當(dāng)進(jìn)行模式定義時(shí),只需對(duì)所看到的感興趣數(shù)據(jù)進(jìn)行拖放即可生成模式定義文件,該文件即為待抽取網(wǎng)頁(yè)的抽取規(guī)則,其中主要慮用了XML的相關(guān)技術(shù)。而抽取規(guī)則如何生成是原型系統(tǒng)的核心問題。

3.規(guī)則執(zhí)行:利用上一步產(chǎn)生的抽取規(guī)則,系統(tǒng)可以對(duì)用戶指定的URL集合進(jìn)行真止的數(shù)據(jù)抽取。過程如F:對(duì)于某一URL,首先獲取該網(wǎng)頁(yè)數(shù)據(jù),將已經(jīng)定義好的規(guī)則對(duì)該網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抽取過濾,輸出結(jié)果數(shù)據(jù),放入已經(jīng)定義好的目的表模式中,至此完成Web數(shù)據(jù)的信息抽取T作。值得強(qiáng)調(diào)指出,抽取得到的結(jié)果數(shù)據(jù)集是完全結(jié)構(gòu)化的,這樣就大大增強(qiáng)了Web數(shù)據(jù)的可用性。

4.已有基礎(chǔ):該ETL工具實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化的文本數(shù)據(jù)的抽取轉(zhuǎn)換和加載工作。半結(jié)構(gòu)化的Web信息抽取可以看作對(duì)ETL上具的功能擴(kuò)充。在本文的末尾介紹了Web信息抽取技術(shù)和ETL系統(tǒng)的關(guān)系。

二、XML數(shù)據(jù)模型與半結(jié)構(gòu)化數(shù)據(jù)之間的對(duì)應(yīng)是非常明顯的,許多半結(jié)構(gòu)化數(shù)據(jù)模型的研究可以容易地應(yīng)用到XML數(shù)據(jù)上。將OEM模型稍加改動(dòng),就可以用來表示XML數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鎮(zhèn)江鼎拓科技信息有限公司,未經(jīng)鎮(zhèn)江鼎拓科技信息有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410540602.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 99久久精品一区二区| 免费观看又色又爽又刺激的视频 | 91久久国语露脸精品国产高跟| 久久69视频| 日韩一区免费在线观看| 91在线一区二区| 欧美色综合天天久久| 欧美一区二区三区免费播放视频了 | 狠狠色狠狠色综合日日五| 国产精品不卡在线| 欧美一区二区色| 亚洲乱码一区二区三区三上悠亚| 国产一区二区三区小说| 一本一道久久a久久精品综合蜜臀 国产三级在线视频一区二区三区 日韩欧美中文字幕一区 | 国产精品高潮呻吟三区四区 | 欧美一区二区三区另类| 国产日韩欧美三级| 亚洲午夜天堂吃瓜在线| 国产精品一区二区麻豆| 91黄色免费看| 国产69精品久久久久999小说| 26uuu亚洲国产精品| 久久婷婷国产香蕉| 久久久久亚洲精品| 97人人模人人爽视频一区二区 | 久久精品手机视频| 91看片淫黄大片91| 九九久久国产精品| 国产精品自产拍在线观看桃花| 国产精品久久久久免费a∨大胸| 中文文精品字幕一区二区| 亚洲四区在线| 少妇久久精品一区二区夜夜嗨| 久久网站精品| 99久久久国产精品免费无卡顿| 肉丝肉足丝袜一区二区三区| 久久夜靖品2区| 一本久久精品一区二区| 精品久久久久一区二区| 国产乱xxxxx国语对白| 91人人爽人人爽人人精88v| 国产精品高潮在线| 国产一区二区电影在线观看| 精品一区中文字幕| 色偷偷一区二区三区| 久久午夜鲁丝片| 国产精品一级片在线观看| 久久亚洲精品国产日韩高潮| 国产欧美一区二区三区不卡高清| 狠狠色噜噜狠狠狠狠88| 国产91电影在线观看| 国产欧美日韩中文字幕| 国产一区二区手机在线观看| 午夜av免费观看| 亚洲第一区国产精品| 国产激情二区| 欧美一区二区三区免费观看视频| 国产品久久久久久噜噜噜狼狼| 免费毛片**| 99久久婷婷国产综合精品草原| 国产精品高潮呻吟88av| 日韩中文字幕一区二区在线视频| 国产v亚洲v日韩v欧美v片| 欧美日韩一级在线观看| 午夜爽爽视频| 日韩精品中文字幕一区二区三区 | 久久影院一区二区| 欧美极品少妇| 欧美日本三级少妇三级久久| 久久九精品| 99er热精品视频国产| 一区二区欧美精品| 精品国产区一区二| 国产精品自拍在线观看| 国产精品久久91| 久久国产免费视频| 国产91麻豆视频| 久久二区视频| 四季av中文字幕一区| 国产精品久久久区三区天天噜| 亚洲久色影视| 91久久国产露脸精品国产护士| 欧美日韩激情在线| 亚洲v欧美v另类v综合v日韩v| 久久久精品观看| 午夜影院一级片| 午夜影院你懂的| 国产亚洲久久| 国产精品精品国内自产拍下载| 精品欧美一区二区在线观看| 四季av中文字幕一区| 日本美女视频一区二区三区| 午夜生活理论片| 国产日韩欧美一区二区在线观看| 久久96国产精品久久99软件| 欧美久久久一区二区三区| 日本一区二区在线电影| 日本大码bbw肉感高潮| 亚洲第一天堂无码专区 | 搡少妇在线视频中文字幕| 九九国产精品视频| 狠狠色噜噜狠狠狠888奇米| 精品久久久久一区二区| 国产资源一区二区| 午夜精品影视| 视频一区二区中文字幕| 欧美日韩一区二区高清| 国产午夜三级一区二区三| 日韩国产精品久久久久久亚洲| 欧美hdfree性xxxx| 满春阁精品av在线导航| 99精品小视频| 91精品一区| 欧洲在线一区| 国产日韩精品一区二区三区| 精品国产九九| 国产亚洲精品久久午夜玫瑰园 | 亚洲精品一品区二品区三品区| 久久国产精彩视频| 国产精品欧美一区乱破| 免费观看黄色毛片| 伊人av中文av狼人av | 国内少妇自拍视频一区| 女人被爽到高潮呻吟免费看| av午夜在线| 国产欧美日韩一区二区三区四区 | 国产精品自拍在线| 狠狠躁日日躁狂躁夜夜躁av| 久草精品一区| 国产精品一区二区日韩新区| 日本精品在线一区| 亚洲精品www久久久| 久久午夜无玛鲁丝片午夜精品| 中文字幕日韩一区二区| 国产精品一区二区在线观看 | 国产清纯白嫩初高生在线观看性色| 国产精品一区二区人人爽| 国产精品9区| 日日夜夜精品免费看 | 鲁丝一区二区三区免费观看| 精品国产一区二区三区麻豆免费观看完整版 | 欧美精选一区二区三区| 精品国产一区二| 国产一区二区高潮| 97国产婷婷综合在线视频,| 国产精品综合一区二区三区| 久久伊人色综合| 91国偷自产一区二区介绍| 久久婷婷国产香蕉| 欧美精品在线观看视频| 国产精品1234区| 一区二区午夜| 一级午夜影院| 91高清一区| 91免费视频国产| 天干天干天啪啪夜爽爽99| 2023国产精品久久久精品双| 久久99亚洲精品久久99果| 欧美激情精品一区| 国产专区一区二区| 国产欧美一区二区三区在线| 国产日韩欧美三级| 亚洲精品久久久久999中文字幕 | 狠狠色噜噜狠狠狠狠88| 狠狠色综合久久丁香婷婷| 欧美777精品久久久久网| 日本少妇一区二区三区| 精品一区二区三区视频?| 91久久国产露脸精品国产| 精品国产乱码久久久久久久| 亚洲综合日韩精品欧美综合区| 国产91高清| 国产精品二区一区二区aⅴ| 欧美一区二区三区视频在线观看| 国产精品一区二区三区在线看| 亚洲欧美一区二区三区1000| 国产婷婷一区二区三区久久| 91精品国产综合久久福利软件| 国产一区二三| 男女无遮挡xx00动态图120秒| 午夜看大片| www色视频岛国| 欧美午夜羞羞羞免费视频app| 精品国产区一区二| 欧美日韩精品在线一区| 日韩av免费网站| 国产视频二区| 99久久精品国| 国产伦精品一区二区三| 欧洲在线一区二区| 正在播放国产一区二区| 538国产精品一区二区在线| 首页亚洲欧美制服丝腿| 中文字幕一区一区三区| 猛男大粗猛爽h男人味| 亚洲神马久久| 精品国产1区2区3区| 偷拍久久精品视频| 精品美女一区二区三区| 亚洲欧美日韩综合在线| 国产一区免费在线| 国产高清在线一区| 欧美亚洲视频二区| 欧美一区二区三区视频在线观看| 狠狠色噜噜狠狠狠狠色综合久老司机| 欧美一级久久精品| 欧洲在线一区| 亚洲福利视频一区二区| 三级午夜片| 96精品国产| 久久国产精品二区| 一区二区三区欧美日韩| 欧美日韩精品不卡一区二区三区| 久久不卡精品| 欧美日韩一区二区高清| 鲁丝一区二区三区免费| 欧美一级日韩一级| 欧美一区亚洲一区| 国模少妇一区二区三区| 欧美在线免费观看一区| 91国偷自产中文字幕婷婷| 69精品久久| 精品国产乱码久久久久久免费| 亚洲精品乱码久久久久久高潮| 国产精品99在线播放| 国产91在线播放| 激情久久久| 欧美一区二区三区高清视频| 国产日韩欧美精品一区二区| 久久aⅴ国产欧美74aaa| 强制中出し~大桥未久在线播放 | 狠狠色噜噜狠狠狠狠奇米777| 中文字幕一区二区三区日韩精品| 亚洲欧美视频一区二区| 日韩av在线资源| 国产精品午夜一区二区三区视频| 亚洲乱在线| 欧美乱大交xxxxx古装| 久久青草欧美一区二区三区| 国产第一区二区三区| 国产农村妇女精品一区二区| 日韩精品1区2区3区| 精品国产一区二区三区忘忧草| 精品国产一区二| 久久国产中文字幕| 狠狠色噜噜狠狠狠四色米奇|