[發明專利]一種XML關鍵字查詢方法有效
| 申請號: | 201410284885.2 | 申請日: | 2014-06-23 |
| 公開(公告)號: | CN104166672B | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 馮鈞;朱祖會;唐志賢;許瀟;杜丙帥;査顯月;王純;李宗祥;魏童童;朱躍龍;李士進;萬定生 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 朱小兵 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 xml 關鍵字 查詢 方法 | ||
技術領域
本發明涉及XML關鍵字查詢方法,屬于信息檢索領域。
背景技術
由于具備可擴展性、靈活性和自描述性,XML逐漸成為互聯網上數據定義,存儲以及交換的標準,因此如何對XML數據進行有效的存儲管理和檢索成為研究熱點。現有的XML查詢方法主要分為結構化查詢和關鍵字查詢兩種,前者需要用戶了解結構化查詢語言的語法機制以及XML文檔的模式信息,對普通用戶并不適用,而后者只需要用戶輸入簡單的查詢關鍵字即可對XML文檔進行檢索,成為XML檢索的主要手段。
目前關鍵字查詢方法主要分為兩類:不支持結果排序以及支持結果排序。其中不支持結果排序的方法主要以LCA(Lowest Common Ancestor)語義為基礎。LCA語義是返回所有關鍵字的最低公共祖先集合。SLCA(Smallest Lowest Common Ancestor)語義是對LCA語義進行的改進,認為結果節點為根的子樹中,關鍵字之間越緊密,對用戶越重要,故該語義去掉了LCA集合中是其他節點祖先的結果節點。此外,對LCA語義改進的語義還有MLCA、ELCA以及VLCA等。
支持結果排序的關鍵字查詢方法主要是基于Google的PageRank以及信息檢索中的TF/IDF這兩個思想進行擴展的,主要有XRANK和XReal等。XRANK是Connel大學的研究者提出的基于LCA語義的XML搜索引擎,指出XML關鍵字檢索與HTML關鍵字檢索的區別,借鑒了PageRank算法的思想提出了用于計算元素重要性的ElemRank算法,該算法計算元素ElemRank時,不僅考慮到了元素間的引用,還考慮了元素的父母以及孩子對該元素重要性的影響,即元素包含邊的正向傳播、反向傳播以及引用邊的影響。XReal把信息檢索中的TF/IDF(詞頻/逆文頻)的概念引入到XML數據庫檢索中,主張利用XML文檔中節點的TF/IDF相似度來對結果節點進行排序。作者將搜索用戶意圖轉換為尋找目標節點類型T,找到目標節點類型T后,對類型T的每個實例節點通過TF/IDF計算出與查詢的相關度,對那些相關度比較接近的節點,通過計算引用邊對元素的影響,進一步確定相關度。
這些語義大多都會存在返回結果語義不完整、返回很多無意義的結果、丟失有意義的結果或不支持結果排序等問題,導致查詢質量不高。
發明內容
本發明針對現有不足,提出一種XML關鍵字查詢方法。基于XML文檔中的節點分類,將包含所有查詢關鍵字的實體子孫去掉之后,仍然滿足查詢條件的實體節點定義為一個有意義的BLCEA(Beside Lowest Common Entity Ancestor)語義實體。該查詢語義使得用戶能夠得到語義完整的結果,同時在查準率和查全率方面比已有的經典查詢語義有明顯的優勢。本發明設計了一種結果排序方法,對BLCEA節點集合進行排序,保證在關鍵字模糊性存在時的檢索效率。
本發明為實現上述發明目的采用如下技術方案:
一種XML關鍵字查詢方法,包括如下步驟:
步驟1,確定XML文檔關鍵字序列的BLCEA節點集合,
所述BLCEA節點為實體節點,去掉BLCEA節點的子孫中包含所有查詢關鍵字的實體節點之后,剩余的子孫中仍然包含所有查詢關鍵字,
實體的定義是通過對XML文檔中的節點進行分類得到,XML文檔中的節點分類及定義如下:
值節點:在XML文檔中,是葉子節點的節點。
屬性節點:在XML文檔中,只有一個值節點作為孩子節點的那些節點。
實體節點:若XML文檔的模式信息可以獲得,即DTD或XML Schema存在,那么實體就是DTD中帶*號或者+號并且不是屬性結點的結點;否則分析XML文檔,若節點與其父節點存在一對多關系,則該節點為實體節點。
連接節點:在XML文檔中,若節點不是值節點、屬性節點或實體節點,那么它就是連接節點,連接節點的孩子是實體節點、屬性節點或者其他的連接節點:
步驟1-1,初始化BLCEA節點集合為空;
步驟1-2,獲得所有關鍵字匹配節點的有序LDewey編碼集合,所述LDewey編碼包括:關鍵字匹配節點所處層次信息level、關鍵字匹配節點的祖先節點在各自所處層次中的位置信息ancestor、關鍵字匹配節點在所處層次中的位置信息location,LDewey編碼結構如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410284885.2/2.html,轉載請聲明來源鉆瓜專利網。





