日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于多級規則庫的信息提取方法及裝置在審

專利信息
申請號: 201410227611.X 申請日: 2014-05-27
公開(公告)號: CN103970898A 公開(公告)日: 2014-08-06
發明(設計)人: 張可;柴毅;馬號;劉建環;田甜 申請(專利權)人: 重慶大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京眾合誠成知識產權代理有限公司 11246 代理人: 龔燮英
地址: 400044 重*** 國省代碼: 重慶;85
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 多級 規則 信息 提取 方法 裝置
【說明書】:

技術領域

發明涉及計算機搜索引擎技術領域,特別是一種信息提取方法及裝置。

背景技術

隨著計算機及網絡的大面積推廣和應用,全球都進入了大信息時代,對于大信息時代,信息搜索引擎成為了必不可少的關鍵技術。目前的信息搜索引擎所采用的信息搜索方法有以下四種:

1、基于HTML結構的信息提取技術;該技術根據HTML的結構特點完成信息提取,通過DOM模型的樹狀結構把對網頁中信息的提取等價于對樹狀結構中節點信息的提取。缺點:當頁面變動過大時會導致無法提取信息;

2、基于自然語言的WEB信息提取技術;該技術忽略了網頁結構,不考慮網頁標簽因素,僅根據自然語言本身之間所存在的聯系對網頁文本信息進行分析。缺點:信息提取速度慢,在處理多主體WEB文檔時,若沒有對主體進行塊劃分,則易導致信息提取失敗;

3、基于本體(Ontology)的信息提取技術;由該領域內相關概念、屬性、關系、約束及術語等構成,主要利用本體對該領域內數據的描述信息,在不考慮WEB的頁面結構情況下,僅根據數據語義的特點實現信息提取。缺點:該方法雖然靈活性及適應性強,但是其自動化程度低;

4、基于包裝器(Wrapper)學習的信息提取技術;由專業的互聯網開發人員分析網站結構后,手工編寫包裝器的程序,編寫出的包裝器只能針對一類網頁。缺點:對于大量網頁,就需要分析大量結構,而且很多網站的結構比較復雜,即使對于專業人員來說,每一個包裝器的編寫時間花費都很巨大,人們把很大的精力都花在網站結構分析和程序調試上面。

對以上4種方式進行總結,會發現:對HTML文檔結構依賴性不高的方法,雖然其自動化程度高,但無法處理結構復雜的網頁,且其提取的準確性較低,實用性較差;對HTML文檔結構依賴性高的方法,可處理復雜結構的網頁,但是其自動化程度低,且依賴人工參與的信息提取方式提取精度高,但是自動化程度低,而自動化程度高的信息提取方式則通常具有準確性低實用性差的弊端。

發明內容

本發明的一個目的就是提供一種基于多級規則庫的信息提取方法,它可以在不通過人工聚類的前提下完成信息搜索提取,顯著提高了搜索引擎的自動化程度;同時,它可以自動對搜索到的網頁信息進行分析聚類,顯著提高了信息的查全率。

本發明的該目的是通過這樣的技術方案實現的,它包括有以下步驟:

1)輸入搜索關鍵字,獲取所有與關鍵字相關的網頁URL地址;

2)根據步驟1)中獲取的網頁URL地址,下載URL地址對應的網頁;

3)對步驟2)中下載的網頁進行預處理,獲得網頁樹型結構圖;

4)根據步驟3)中得到的網頁樹型結構圖,進行網頁聚類,從待聚類網頁中選取網頁作為訓練集,通過機器學習方法獲取網頁模板并定義網頁的聚類規則;

5)搜索結果提取,根據輸入的關鍵字,采用XPath規則定位節點,再采用XSLT規則進行信息提取;

6)根據步驟5)中提取到的結果,對不同類型網頁中提取到的信息進行匯總顯示。

進一步,步驟1)中所述相關為與關鍵字相同或相似。

進一步,步驟2)中所述的下載方法為爬蟲下載方法。

進一步,步驟3)中所述網頁預處理,獲得網頁樹型結構圖的具體方法為:

3-1)對步驟2)中下載的網頁進行網頁清洗,將不符合規范的HTML文本轉換成符合XML規范的文本,并清洗掉非法字符及潛逃錯誤;

3-2)對步驟3-1)得到的結果進行DOM解析,將XML規范文本解析為文檔對象Document;

3-3)網頁結構圖形化顯示,將文檔對象Document圖形化顯示為Dom樹,通過樹結構對網頁結構進行分析和對主節點信息的提取。

進一步,步驟3-2)中對XML規范文本進行解析如采用DOM4j或jdom工具包。

進一步,步驟4)中所述聚類規則的具體生成方法為:

4-1)網頁相似度計算,采用樹路徑匹配算法對網頁相似度進行計算,形成相似度矩陣;

4-2)通過聚類算法對網頁進行聚類,聚類算法采用凝聚層次的凝聚算法,凝聚算法中的簇間距離度量采用平均連鎖方法計算,平均連鎖方法的輸入為步驟4-1)中形成的相似度矩陣。

進一步,步驟4-1)和步驟4-2)的具體計算公式為:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410227611.X/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产69精品久久久久按摩| 亚洲精品乱码久久久久久按摩| 国产麻豆一区二区| 91精品视频一区二区| 国产色婷婷精品综合在线播放| 久久一区二区三区欧美| 欧美精品一区免费| 午夜大片男女免费观看爽爽爽尤物| 欧美精品国产精品| 精品国产91久久久| 国产一区观看| 日本免费电影一区二区| 国产精品久久久爽爽爽麻豆色哟哟| 午夜影皖精品av在线播放| 精品国产乱码久久久久久虫虫| 欧美日韩中文国产一区发布| 91超碰caoporm国产香蕉| 国产日韩一区二区三免费| 亚洲欧美日韩另类精品一区二区三区| 欧美一区二区三区免费在线观看| 视频一区二区国产| 欧美一区二区三区黄| 国产一区二区综合| 欧美一区二区三区白人| 国产午夜亚洲精品| 精品久久二区| 性old老妇做受| 国内精品国产三级国产99| 99日本精品| 久久精品一二三四| 欧美一级特黄乱妇高清视频| 国产人成看黄久久久久久久久| 日韩一区免费在线观看| 狠狠色依依成人婷婷九月| 国产精选一区二区| 国产性猛交96| 国产伦理久久精品久久久久| 国产精品久久久久久久久久久久冷| 国内少妇自拍视频一区| 四季av中文字幕一区| 亚洲精品国产一区二| 91高清一区| 国产人成看黄久久久久久久久| 国产极品美女高潮无套久久久| 素人av在线| 韩日av一区二区| 午夜影院色| 99久久国产综合精品尤物酒店| 国产一区免费在线观看| 黄色国产一区二区| 欧美精品粉嫩高潮一区二区| 国产偷国产偷亚洲清高| 欧美精品综合视频| 亚洲少妇一区二区| 久久er精品视频| 欧美日韩国产色综合视频| 久久99视频免费| 一区二区免费播放| 国产精品久久亚洲7777| 精品少妇一区二区三区免费观看焕| 少妇高潮在线观看| 欧美日韩亚洲另类| 少妇久久免费视频| 鲁丝一区二区三区免费观看 | 国产精品九九九九九| 亚洲欧美日本一区二区三区 | 国产目拍亚洲精品区一区| 91午夜精品一区二区三区| 欧美性受xxxx狂喷水| 欧美乱战大交xxxxx| 日本护士hd高潮护士| 欧美久久精品一级c片| 久久夜色精品国产噜噜麻豆| 日韩久久精品一区二区| 久久天堂国产香蕉三区| 久99久精品| 欧美视屏一区二区| 一级女性全黄久久生活片免费 | 国产一二三区免费| 欧美精品八区| 国产日韩精品一区二区| 国产乱码精品一区二区三区介绍| 中文文精品字幕一区二区| 欧美一区二区三区高清视频| 亚洲欧美国产精品久久| 免费看农村bbwbbw高潮| 午夜电影一区| 亚洲欧美一卡| 欧美精品一区二区三区久久久竹菊| 岛国黄色网址| 狠狠色狠狠色综合系列| 国产电影精品一区二区三区| 日本一区中文字幕| 国产大学生呻吟对白精彩在线| 国产亚洲综合一区二区| 首页亚洲欧美制服丝腿| 日本丰满岳妇伦3在线观看| 日本精品一二区| 精品国产乱码久久久久久老虎| 国产白嫩美女在线观看| 国内自拍偷拍一区| 国产高清不卡一区| 欧美日韩一区二区三区四区五区六区| 日韩av在线网| 久久午夜鲁丝片午夜精品| 99精品欧美一区二区三区美图| 自偷自拍亚洲| 日韩欧美精品一区二区三区经典| 国产一级片一区二区| 国产精品理人伦一区二区三区| 日韩午夜电影院| 国产精品中文字幕一区二区三区 | 国产欧美日韩在线观看| 亚洲少妇一区二区三区| 91精品久久久久久久久久| 91免费国产| 午夜精品999| 免费a一毛片| 久久国产精品波多野结衣| 久久青草欧美一区二区三区| 香蕉av一区| 国内精品久久久久影院日本| 狠狠色噜噜狠狠狠狠88| 91偷拍网站| 久久国产精品二区| 日韩国产精品久久| 满春阁精品av在线导航| 一区精品二区国产| 中出乱码av亚洲精品久久天堂| 亚洲午夜精品一区二区三区电影院 | 一区二区国产盗摄色噜噜| 久久精品综合视频| 91视频国产九色| 午夜影院h| 精品国产一区二区三区四区vr| 久久97国产| 自拍偷在线精品自拍偷无码专区| 欧美福利一区二区| 亚洲神马久久| 亚洲天堂国产精品| 久久久精品免费看| 久久综合伊人77777麻豆| 日韩精品久久一区二区| 亚洲国产视频一区二区三区| 国产在线观看免费麻豆| 精品a在线| 午夜天堂在线| 国产videosfree性另类| 国产精品久久免费视频在线| 国产精品你懂的在线| 99re久久精品国产| 91麻豆精品国产91久久久资源速度| 91夜夜夜| 99精品在免费线偷拍| 亚洲国产偷| 久久精品爱爱视频| 国产一区二区国产| 91黄色免费看| 国产欧美日韩综合精品一| 91精品美女| 福利视频亚洲一区| 一区二区欧美在线| 99国产精品九九视频免费看| 亚洲高清国产精品| 97人人模人人爽人人喊小说| 国产精品一卡二卡在线观看| 日韩一级片免费观看| 91久久综合亚洲鲁鲁五月天| 国产精品久久久久久久龚玥菲| 欧美日韩国产91| 欧美久久一区二区三区| 欧美国产精品久久| 少妇久久免费视频| xxxx18hd护士hd护士| 国产99小视频| 国产一区在线视频播放| 国产精品二区在线| 在线精品国产一区二区三区88 | 久久国产中文字幕| 蜜臀久久久久久999| 国产综合久久精品| 国产乱码一区二区三区| 91国偷自产中文字幕婷婷| 国产一区二区手机在线观看| 国产韩国精品一区二区三区 | 国产色午夜婷婷一区二区三区| 91麻豆精品国产91久久久久| 亚洲va欧美va国产综合先锋| 亚洲乱码av一区二区三区中文在线: | 久久99国产视频| 国产一区观看| 亚洲精品国产主播一区| 亚洲国产精品区| 91久久久爱一区二区三区| 国产精品久久久久久久龚玥菲 | 亚洲四区在线| 伊人av中文av狼人av| 久久精品99国产国产| 国产有码aaaae毛片视频| 中文字幕天天躁日日躁狠狠躁免费| 日韩夜精品精品免费观看| 欧美大片一区二区三区| 久久免费视频一区| 亚洲精品91久久久久久| 国产欧美综合一区| 人人澡超碰碰97碰碰碰| 久久国产麻豆| 国产aⅴ一区二区| 国产乱码精品一区二区三区介绍| 国产偷国产偷亚洲清高| 欧美日韩国产影院| 91看片淫黄大片91| 性欧美一区二区| 一区二区91| 欧美一区二三区| 国产乱码精品一区二区三区介绍| 性old老妇做受| 精品一区二区在线视频| 日韩av在线资源| 日韩精品一区二区三区免费观看| 亚洲四区在线| 久久国产精品免费视频| 99er热精品视频国产| 欧美激情综合在线| 国产91在线拍偷自揄拍| 日韩久久精品一区二区三区| 亚洲精品日韩色噜噜久久五月| 亚洲精品日韩精品| 欧美乱妇在线视频播放| 国产乱xxxxx国语对白| 精品国产乱码久久久久久影片| 国产网站一区二区| 夜夜躁日日躁狠狠久久av| 欧美日韩一级在线观看| 国产日韩精品久久| 国产精品尤物麻豆一区二区三区| 少妇久久精品一区二区夜夜嗨| 视频一区二区三区欧美| 亚洲欧洲日本在线观看| 国产激情二区| av毛片精品| 真实的国产乱xxxx在线91| 搡少妇在线视频中文字幕| 麻豆视频免费播放| 免费午夜在线视频| 色就是色欧美亚洲|