日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]Web信息抽取系統無效

專利信息
申請號: 200910012239.X 申請日: 2009-06-24
公開(公告)號: CN101582075A 公開(公告)日: 2009-11-18
發明(設計)人: 陳榮;郭銀蕊;劉亞清;陳濤;陳娟;孫向偉;史玉翡 申請(專利權)人: 大連海事大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 大連東方專利代理有限責任公司 代理人: 李洪福
地址: 116026遼*** 國省代碼: 遼寧;21
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: web 信息 抽取 系統
【權利要求書】:

1.一種Web信息抽取系統,包括:檢索解析模塊、規則生成模塊和數據抽取存儲模塊:

所述檢索解析模塊包括網絡爬蟲單元和HTML解析器,

所述網絡爬蟲單元用于以設定的時間間隔動態地檢索下載同檢索規則匹配的Web頁面,

所述HTML解析器用于對網絡爬蟲單元下載的HTML網頁中的字符逐個掃描,解析HTML文檔的結構層次關系,并為相同的HTML標簽從零開始依次添加編號,最終形成HTML文件對應的DOM樹和腳本網頁;

所述規則生成模塊包括單槽抽取規則生成單元和/或多槽抽取規則生成單元,

所述單槽抽取規則生成單元,用于生成一個孤立的信息點的抽取的規則,即生成一個對網頁中的局部信息點進行抽取的規則,

所述多槽抽取規則生成單元,用于生成多個相互聯系的信息點的抽取規則,即生成一個對網頁中多個結構相似的信息塊中所有相關聯的信息點進行抽取的規則;

所述數據抽取存儲模塊,根據所述規則生成模塊生成的抽取規則,從檢索解析模塊下載的網頁上提取數據并以結構化的形式存儲;

其特征在于所述單槽抽取規則生成單元包括:腳本網頁信息節點獲取單元和DOM樹信息節點獲取單元;

所述腳本網頁信息獲取單元,用于啟動瀏覽器打開腳本網頁,選擇網頁信息點后,并自動生成根節點到目標信息節點的DOM路徑;

所述DOM樹信息節點獲取單元內部設有查找單元,用于用戶提供網頁中感興趣的信息點的部分或全部內容,通過查找單元把DOM樹中所有的相關節點展開,選中信息點對應的葉子節點,然后獲得到信息點在DOM樹中的路徑。

2.根據權利要求1所述的一種Web信息抽取系統,其特征在于所述多槽抽取規則生成單元包括:查找單元、選擇單元、預處理單元、語義字典單元和學習算法單元;

所述查找單元,用于獲得感興趣信息塊在DOM樹中的位置;

所述選擇單元,用于獲得所述查找單元查找到的信息塊在DOM樹中的節點的路徑,即得到包含HTML標簽的信息塊集合和信息塊在DOM樹中的路徑;

所述預處理單元,用于對所述選擇單元獲得的信息塊經過例子去噪和例子標注處理后作為訓練例子作為學習算法單元的輸入;

所述語義字典單元,用于對相關領域中基本術語作解釋,其中語義部分采用正則表達式或采用單詞和單詞縮寫的組合來表示,作為學習算法單元的輸入;

所述學習算法單元對預處理單元和語義字典單元提供的訓練例子和語義字典,經過學習算法處理后,獲得信息塊中所有相關聯的信息點的正則表達式規則集;

上述選擇單元得到信息塊在DOM樹中的路徑和學習算法單元得到的正則表達式集結合起來構成完整的多槽抽取規則集。

3.一種Web信息抽取方法,包括如下步驟:

(1)利用系統中的網絡爬蟲部件以設定的時間間隔動態地檢索下載同檢索規則匹配的Web頁面;

(2)然后使用系統中的HTML解析器對步驟(1)下載的HTML網頁中的字符逐個掃描,解析HTML文檔的結構層次關系,并為相同的HTML標簽從零開始依次添加編號,最終形成HTML文件對應的DOM樹和腳本網頁;

(3)根據步驟(2)獲取的DOM樹和腳本網頁生成信息的抽取規則,包括孤立的信息點的單槽抽取的規則和多個相互聯系的信息點的多槽抽取規則,具體生成步驟如下:

a、生成一個孤立的信息點的抽取的規則,即生成一個對網頁中的局部信息點進行抽取的規則;

b、生成多個相互聯系的信息點的抽取規則,即生成一個對網頁中多個結構相似的信息塊中所有相關聯的信息點進行抽取的規則;

(4)根據步驟(3)生成的抽取規則,從步驟(1)下載的網頁上提取數據并以結構化的形式存儲;

其特征在于所述步驟(3)中的步驟a具體包括:

啟動瀏覽器打開腳本網頁,選擇網頁信息點后,并自動生成根節點到目標信息節點的DOM路徑的步驟和用戶提供網頁中感興趣的信息點的部分或全部內容,通過查找單元把DOM樹中所有的相關節點展開,選中信息點對應的葉子節點,然后獲得到信息點在DOM樹中的路徑的步驟。

4.根據權利要求3所述的一種Web信息抽取方法,其特征在于所述步驟(3)中的步驟b具體包括如下步驟:

1)獲得感興趣信息塊在DOM樹中的位置;

2)獲得所述步驟1)查找到的信息塊在DOM樹中的節點的路徑,即得到包含HTML標簽的信息塊集合和信息塊在DOM樹中的路徑;

3)對所述步驟2)獲得的信息塊經過例子去噪和例子標注處理后作為訓練例子;

4)對相關領域中基本術語作解釋,其中語義部分采用正則表達式或采用單詞和單詞縮寫的組合來表示形成語義字典;

5)對步驟3)和步驟4)提供的訓練例子和語義字典,經過學習算法處理后,獲得信息塊中所有相關聯的信息點的正則表達式規則集;

6)對所述步驟2)中獲得的信息塊在DOM樹中的路徑和所述步驟5)中獲得的正則表達式規則集,兩者結合起來構成完整的多槽規則集。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/200910012239.X/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产床戏无遮挡免费观看网站| 91精品免费观看| 狠狠色噜噜综合社区| 浪潮av网站| 少妇久久精品一区二区夜夜嗨 | 一区二区三区毛片| 国产第一区在线观看| 午夜欧美影院| 国产一区二区三区黄| 久久久精品99久久精品36亚| 国产91丝袜在线熟| 91精品夜夜| 国内少妇自拍视频一区| sb少妇高潮二区久久久久| 久久国产精久久精产国| 一区二区三区国产精品| 国产视频在线一区二区| 欧美久久一区二区三区| 91精品久久天干天天天按摩| 午夜激情影院| 国产精品女同一区二区免费站| 日韩亚洲欧美一区二区| 91片在线观看| 国产日韩欧美一区二区在线观看| 91麻豆精品国产91久久久更新资源速度超快 | 国产999在线观看| 国产日韩精品一区二区三区| 狠狠躁狠狠躁视频专区| 激情久久一区二区三区| 亚洲乱码一区二区三区三上悠亚 | 国内精品久久久久久久星辰影视 | 91麻豆精品国产自产欧美一级在线观看| 国产一区二区午夜| 精品国产一二区| 国内精品久久久久影院日本| 一区精品二区国产| 欧美亚洲另类小说| 午夜av网址| 欧美精品日韩精品| 久久福利免费视频| 欧美一区久久| 17c国产精品一区二区| 久久久精品久久日韩一区综合| 久久99亚洲精品久久99果| 日韩一级片在线免费观看| 手机看片国产一区| 国产精品久久久久久av免费看| 午夜精品一区二区三区aa毛片| 中文字幕区一区二| 精品99在线视频| 国产精品天堂网| 狠狠色噜噜狠狠狠狠88| 日韩在线一区视频| 国产精品黑色丝袜的老师| 麻豆91在线| 精品久久国产视频| 日韩有码一区二区三区| 欧美日韩亚洲三区| 亚洲国产欧美一区| 狠狠躁夜夜| 91久久综合亚洲鲁鲁五月天| 国产日韩麻豆| 91麻豆国产自产在线观看hd| 夜夜躁日日躁狠狠久久av| 亚洲精品suv精品一区二区| 国产精品一区二区在线看| 99精品久久99久久久久| 亚洲午夜精品一区二区三区| 亚洲精品一区中文字幕| 国产欧美精品一区二区三区-老狼| 欧美精品一区久久| 亚洲精品久久久久一区二区| 农村妇女毛片精品久久| 国产精品乱码久久久久久久| 久久久久偷看国产亚洲87| 亚洲精品久久久久999中文字幕| 91社区国产高清| 久久国产麻豆| 日韩欧美一区精品| 亚洲国产精品97久久无色| 欧美一区二区三区免费视频| 日韩欧美一区精品| 狠狠色狠狠色综合婷婷tag| 91精品国产91热久久久做人人 | 久久久精品99久久精品36亚| 欧美一区二区三区白人| 91麻豆精品一区二区三区| 欧美日韩国产一区二区三区在线观看| 李采潭伦理bd播放| 色综合久久精品| 99re6国产露脸精品视频网站| 国产视频一区二区在线播放| 精品久久综合1区2区3区激情| 国产午夜亚洲精品羞羞网站| 午夜精品影视| 欧美日韩亚洲另类| 少妇精品久久久久www蜜月| 国产中文字幕一区二区三区| 天啦噜国产精品亚洲精品| 欧美三级午夜理伦三级中视频 | 老太脱裤子让老头玩xxxxx| 中文字幕一区三区| 国产一区二区免费在线| 一区二区三区四区中文字幕| 亚洲国产欧美国产综合一区| 亚洲国产精品麻豆| 亚洲欧美日韩在线| 97久久精品人人做人人爽| 91麻豆精品国产91久久久久推荐资源 | 日韩精品一区中文字幕| 国产一区二区在| 国产免费第一区| 久久激情综合网| 日韩中文字幕区一区有砖一区| 91视频一区二区三区| 久久精品一二三| 999国产精品999久久久久久| 亚洲高清久久久| 日本免费电影一区二区| 中文字幕制服狠久久日韩二区 | 国产精品自产拍在线观看桃花| 99日本精品| 日韩一区二区福利视频| 狠狠色综合久久丁香婷婷 | 在线国产二区| 91丝袜诱惑| 国产伦精品一区二区三区无广告| 国产色婷婷精品综合在线播放| 丝袜美腿诱惑一区二区| 国内少妇自拍视频一区| 久久人做人爽一区二区三区小说| 亚洲免费永久精品国产| 欧美日韩激情在线| 久久亚洲精品国产日韩高潮| 亚洲无人区码一码二码三码| 国产乱人伦偷精品视频免下载| 一区二区三区精品国产| 国产91视频一区| 狠狠色噜噜狠狠狠狠米奇7777| 日本福利一区二区| 午夜激情电影院| 久久国产欧美日韩精品| 久久一区二区精品视频| 国产高清精品一区二区| 欧美一区二区激情三区| 国产原创一区二区| 日本一二三区视频在线| 日本一区二区三区四区高清视频| 日本免费电影一区二区| 香蕉av一区| 国产欧美精品一区二区在线播放| 91看片片| 午夜亚洲影院| 国偷自产中文字幕亚洲手机在线| 国产一区二区三区中文字幕| 欧美精品在线一区二区| 一区二区三区欧美日韩| 国产午夜一级一片免费播放| 国产亚洲精品精品国产亚洲综合| 欧美乱妇高清无乱码一级特黄| 国产精品视频一区二区三| 亚洲精品无吗| 亚洲欧美一区二| 福利片91| 综合久久色| 久久五月精品| 国产精品久久久久久久综合| 欧洲精品一区二区三区久久| 精品国产乱码久久久久久久| 亚洲国产午夜片| 国产乱淫精品一区二区三区毛片| 91精品国产91热久久久做人人| 高清欧美精品xxxxx| 成年人性生活免费看| 99久久久久久国产精品| 亚洲精品久久久中文| 国产人澡人澡澡澡人碰视 | 午夜精品一区二区三区三上悠亚 | 午夜影院你懂的| 久久99精品一区二区三区| 国产乱了高清露脸对白| 91中文字幕一区| 久久福利免费视频| 国产在线欧美在线| 国产精品免费自拍| 国产在线不卡一| 午夜天堂在线| 午夜看片在线| 99视频国产精品| 日韩av不卡一区二区| 国产精品v欧美精品v日韩| 久久96国产精品久久99软件| 中文天堂在线一区| 久久97国产| 91高清一区| 国产精品电影免费观看| 丰满岳乱妇bd在线观看k8| 国产区二区| 久久精品国产亚洲一区二区| 日韩精品一区二区三区中文字幕| 日本一区二区三区在线视频| 欧美国产精品久久| 久久久午夜爽爽一区二区三区三州| 亚洲精品456在线播放| 国产精品免费专区| 精品久久久久久中文字幕| 狠狠色噜噜综合社区| 制服丝袜二区| 日本一二三区视频在线| 99国产精品99久久久久久粉嫩| 国产二区三区视频| 午夜影皖精品av在线播放| 国产乱人乱精一区二视频国产精品| 亚洲欧美日韩在线| 久久福利免费视频| 黄色av免费| 国产二区不卡| 欧美一区二区精品久久| 在线视频国产一区二区| 欧美资源一区| 少妇太爽了在线观看免费| 午夜影院91| 一级黄色片免费网站| 日韩午夜一区| 狠狠躁狠狠躁视频专区| 亚洲欧美制服丝腿| 玖玖国产精品视频| 热久久国产| 女女百合互慰av| 欧美激情视频一区二区三区免费| 九九视频69精品视频秋欲浓| 精品国产亚洲一区二区三区| 国产精品电影一区| 国产欧美精品va在线观看| 99久久www免费| 99久久精品免费看国产免费粉嫩| 国产精品自拍在线| 夜夜躁日日躁狠狠躁| 欧美日韩国产免费观看| 欧美日韩国产色综合一二三四| 亚洲精品主播| 狠狠插狠狠爱| 亚洲国产精品91| 欧美日韩一区免费| 久久国产精品广西柳州门| 亚洲欧美另类综合|