[發明專利]一種基于多級規則庫的信息提取方法及裝置在審
| 申請號: | 201410227611.X | 申請日: | 2014-05-27 |
| 公開(公告)號: | CN103970898A | 公開(公告)日: | 2014-08-06 |
| 發明(設計)人: | 張可;柴毅;馬號;劉建環;田甜 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 龔燮英 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多級 規則 信息 提取 方法 裝置 | ||
技術領域
本發明涉及計算機搜索引擎技術領域,特別是一種信息提取方法及裝置。
背景技術
隨著計算機及網絡的大面積推廣和應用,全球都進入了大信息時代,對于大信息時代,信息搜索引擎成為了必不可少的關鍵技術。目前的信息搜索引擎所采用的信息搜索方法有以下四種:
1、基于HTML結構的信息提取技術;該技術根據HTML的結構特點完成信息提取,通過DOM模型的樹狀結構把對網頁中信息的提取等價于對樹狀結構中節點信息的提取。缺點:當頁面變動過大時會導致無法提取信息;
2、基于自然語言的WEB信息提取技術;該技術忽略了網頁結構,不考慮網頁標簽因素,僅根據自然語言本身之間所存在的聯系對網頁文本信息進行分析。缺點:信息提取速度慢,在處理多主體WEB文檔時,若沒有對主體進行塊劃分,則易導致信息提取失敗;
3、基于本體(Ontology)的信息提取技術;由該領域內相關概念、屬性、關系、約束及術語等構成,主要利用本體對該領域內數據的描述信息,在不考慮WEB的頁面結構情況下,僅根據數據語義的特點實現信息提取。缺點:該方法雖然靈活性及適應性強,但是其自動化程度低;
4、基于包裝器(Wrapper)學習的信息提取技術;由專業的互聯網開發人員分析網站結構后,手工編寫包裝器的程序,編寫出的包裝器只能針對一類網頁。缺點:對于大量網頁,就需要分析大量結構,而且很多網站的結構比較復雜,即使對于專業人員來說,每一個包裝器的編寫時間花費都很巨大,人們把很大的精力都花在網站結構分析和程序調試上面。
對以上4種方式進行總結,會發現:對HTML文檔結構依賴性不高的方法,雖然其自動化程度高,但無法處理結構復雜的網頁,且其提取的準確性較低,實用性較差;對HTML文檔結構依賴性高的方法,可處理復雜結構的網頁,但是其自動化程度低,且依賴人工參與的信息提取方式提取精度高,但是自動化程度低,而自動化程度高的信息提取方式則通常具有準確性低實用性差的弊端。
發明內容
本發明的一個目的就是提供一種基于多級規則庫的信息提取方法,它可以在不通過人工聚類的前提下完成信息搜索提取,顯著提高了搜索引擎的自動化程度;同時,它可以自動對搜索到的網頁信息進行分析聚類,顯著提高了信息的查全率。
本發明的該目的是通過這樣的技術方案實現的,它包括有以下步驟:
1)輸入搜索關鍵字,獲取所有與關鍵字相關的網頁URL地址;
2)根據步驟1)中獲取的網頁URL地址,下載URL地址對應的網頁;
3)對步驟2)中下載的網頁進行預處理,獲得網頁樹型結構圖;
4)根據步驟3)中得到的網頁樹型結構圖,進行網頁聚類,從待聚類網頁中選取網頁作為訓練集,通過機器學習方法獲取網頁模板并定義網頁的聚類規則;
5)搜索結果提取,根據輸入的關鍵字,采用XPath規則定位節點,再采用XSLT規則進行信息提取;
6)根據步驟5)中提取到的結果,對不同類型網頁中提取到的信息進行匯總顯示。
進一步,步驟1)中所述相關為與關鍵字相同或相似。
進一步,步驟2)中所述的下載方法為爬蟲下載方法。
進一步,步驟3)中所述網頁預處理,獲得網頁樹型結構圖的具體方法為:
3-1)對步驟2)中下載的網頁進行網頁清洗,將不符合規范的HTML文本轉換成符合XML規范的文本,并清洗掉非法字符及潛逃錯誤;
3-2)對步驟3-1)得到的結果進行DOM解析,將XML規范文本解析為文檔對象Document;
3-3)網頁結構圖形化顯示,將文檔對象Document圖形化顯示為Dom樹,通過樹結構對網頁結構進行分析和對主節點信息的提取。
進一步,步驟3-2)中對XML規范文本進行解析如采用DOM4j或jdom工具包。
進一步,步驟4)中所述聚類規則的具體生成方法為:
4-1)網頁相似度計算,采用樹路徑匹配算法對網頁相似度進行計算,形成相似度矩陣;
4-2)通過聚類算法對網頁進行聚類,聚類算法采用凝聚層次的凝聚算法,凝聚算法中的簇間距離度量采用平均連鎖方法計算,平均連鎖方法的輸入為步驟4-1)中形成的相似度矩陣。
進一步,步驟4-1)和步驟4-2)的具體計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410227611.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可實現驅鳥組合物附著的電線絕緣套管
- 下一篇:新型三相一體式高壓絕緣套管
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





