[發明專利]一種基于XML的信息搜索方法在審
| 申請號: | 201310527298.7 | 申請日: | 2013-10-31 |
| 公開(公告)號: | CN104598454A | 公開(公告)日: | 2015-05-06 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 南京思潤軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 無 | 代理人: | 無 |
| 地址: | 210012 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xml 信息 搜索 方法 | ||
技術領域
本發明涉及一種基于XML的信息搜索方法,屬于計算機技術領域。
背景技術
隨著Internet上信息量的與日俱增,傳統的基于HTML的信息檢索已經無法滿足人們不斷變化的信息需求。為此,人們努力尋求各種新的技術方法和解決手段,XML的出現在很大程度上能緩解這一問題。由于XML具有可擴展性、簡單性、開放性、互操作性等諸多特點,正逐步取代HTML,成為駐留在Web上的主要的信息形式,而其結構化及自描述等特性亦給檢索效果的提高帶來了新的契機。
可擴展的標識語言XML(Extensible?Markup?Language)是一種元標注語言,即定義了用于定義其他特定領域有關語義的、結構化的標記語言,這些標記語言將文檔分成許多部件并對這些部件加以標識。XML?文檔定義方式有:DTD?(Document?Type?Definition)和XML?Schema。DTD定義了文檔的整體結構以及文檔的語法,應用廣泛并有豐富工具支持。XML?Schema用于定義管理信息等更強大、更豐富的特征。XML能夠更精確地聲明內容,方便跨越多種平臺的更有意義的搜索結果。它提供了一種描述結構數據的格式,簡化了網絡中數據交換和表示,使得代碼、數據和表示分離,并作為數據交換的標準格式,因此它常被稱為智能數據文檔。XML技術已經廣泛應用于e-Learning應用系統的開發,大多數的商用e-Learning平臺都支持XML標準。
發明內容
本發明介紹了一種基于XML的信息搜索方法,該方法建立索引時不僅需要建立倒排文本索引,還需要建立結構信息索引;查詢處理時不僅需要處理關鍵字查詢條件,還需要處理結構化查詢條件。具體過程如下:
(1)分析XML信息檢索系統中的結構索引算法設計和結構化查詢優化中的查詢代價估計問題,以及查詢結果和查詢條件間的相關度算法,提出了一種高效的動態XML結構索引算法,它采用動態后向結構相似性的概念,可根據實際查詢需求以及索引最優化的要求動態決定索引中保存的結構信息。
(2)為考慮XML數據中的結構信息對查詢結果相關度值的影響,提出了一種綜合考慮關鍵字頻率分布特征和結構分布特征的查詢結果相關度算法,以及一種基于節點的關鍵字權重計算法,取得了更優的檢索性能。
(3)分析XML結構化查詢優化中的查詢代價估計問題與傳統關系型數據庫中的查詢代價估計問題的區別,提出了一套完整的XML結構化查詢代價估計體系SXM,包括對簡單路徑表達進行查詢代價估計的動態XML數據統計模型XMap,對復雜路徑表達進行查詢代價估計的雙焦點例舉法,以及對值匹配條件進行查詢代價估計的基于小波的多維直方圖方法,并能將多種查詢表達的查詢代價估計結果結合在一起,以給出一個完整的XPath查詢的代價估計。SXM有效解決了XML結構化查詢代價估計中存在的結構不規則、查詢表達復雜、數據間相互依賴關系復雜等問題。
具體實施方式
實施例一
使用MyEclipse?8.6作為開發工具,使用市場上專用的數據庫?MySQL建立系統所需要的數據庫,使用Navicat?for?MySQL作為數據庫管理工具。
具體過程如下:
(1)分析XML信息檢索系統中的結構索引算法設計和結構化查詢優化中的查詢代價估計問題,以及查詢結果和查詢條件間的相關度算法,提出了一種高效的動態XML結構索引算法,它采用動態后向結構相似性的概念,可根據實際查詢需求以及索引最優化的要求動態決定索引中保存的結構信息。
(2)為考慮XML數據中的結構信息對查詢結果相關度值的影響,本發明提出了一種綜合考慮關鍵字頻率分布特征和結構分布特征的查詢結果相關度算法,以及一種基于節點的關鍵字權重計算法,取得了更優的檢索性能。
(3)分析XML結構化查詢優化中的查詢代價估計問題與傳統關系型數據庫中的查詢代價估計問題的區別,提出了一套完整的XML結構化查詢代價估計體系SXM,包括對簡單路徑表達進行查詢代價估計的動態XML數據統計模型XMap,對復雜路徑表達進行查詢代價估計的雙焦點例舉法,以及對值匹配條件進行查詢代價估計的基于小波的多維直方圖方法,并能將多種查詢表達的查詢代價估計結果結合在一起,以給出一個完整的XPath查詢的代價估計。SXM有效解決了XML結構化查詢代價估計中存在的結構不規則、查詢表達復雜、數據間相互依賴關系復雜等問題。
除上述實施例外,本發明還可以有其他實施方式。凡采用等同替換或等效變換形成的技術方案,均落在本發明要求的保護范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京思潤軟件有限公司;,未經南京思潤軟件有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310527298.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖片過濾方法、裝置以及電子設備
- 下一篇:用戶性別分析方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





