[發明專利]一種XML關鍵字查詢方法有效

申請號：	201410284885.2	申請日：	2014-06-23
公開（公告）號：	CN104166672B	公開（公告）日：	2017-11-17
發明（設計）人：	馮鈞;朱祖會;唐志賢;許瀟;杜丙帥;査顯月;王純;李宗祥;魏童童;朱躍龍;李士進;萬定生	申請（專利權）人：	河海大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	南京經緯專利商標代理有限公司32200	代理人：	朱小兵
地址：	211100 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 xml 關鍵字查詢方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及XML關鍵字查詢方法，屬于信息檢索領域。

背景技術

由于具備可擴展性、靈活性和自描述性，XML逐漸成為互聯網上數據定義，存儲以及交換的標準，因此如何對XML數據進行有效的存儲管理和檢索成為研究熱點。現有的XML查詢方法主要分為結構化查詢和關鍵字查詢兩種，前者需要用戶了解結構化查詢語言的語法機制以及XML文檔的模式信息，對普通用戶并不適用，而后者只需要用戶輸入簡單的查詢關鍵字即可對XML文檔進行檢索，成為XML檢索的主要手段。

目前關鍵字查詢方法主要分為兩類：不支持結果排序以及支持結果排序。其中不支持結果排序的方法主要以LCA(Lowest Common Ancestor)語義為基礎。LCA語義是返回所有關鍵字的最低公共祖先集合。SLCA(Smallest Lowest Common Ancestor)語義是對LCA語義進行的改進，認為結果節點為根的子樹中，關鍵字之間越緊密，對用戶越重要，故該語義去掉了LCA集合中是其他節點祖先的結果節點。此外，對LCA語義改進的語義還有MLCA、ELCA以及VLCA等。

支持結果排序的關鍵字查詢方法主要是基于Google的PageRank以及信息檢索中的TF/IDF這兩個思想進行擴展的，主要有XRANK和XReal等。XRANK是Connel大學的研究者提出的基于LCA語義的XML搜索引擎，指出XML關鍵字檢索與HTML關鍵字檢索的區別，借鑒了PageRank算法的思想提出了用于計算元素重要性的ElemRank算法，該算法計算元素ElemRank時，不僅考慮到了元素間的引用，還考慮了元素的父母以及孩子對該元素重要性的影響，即元素包含邊的正向傳播、反向傳播以及引用邊的影響。XReal把信息檢索中的TF/IDF(詞頻/逆文頻)的概念引入到XML數據庫檢索中，主張利用XML文檔中節點的TF/IDF相似度來對結果節點進行排序。作者將搜索用戶意圖轉換為尋找目標節點類型T，找到目標節點類型T后，對類型T的每個實例節點通過TF/IDF計算出與查詢的相關度，對那些相關度比較接近的節點，通過計算引用邊對元素的影響，進一步確定相關度。

這些語義大多都會存在返回結果語義不完整、返回很多無意義的結果、丟失有意義的結果或不支持結果排序等問題，導致查詢質量不高。

發明內容

本發明針對現有不足，提出一種XML關鍵字查詢方法。基于XML文檔中的節點分類，將包含所有查詢關鍵字的實體子孫去掉之后，仍然滿足查詢條件的實體節點定義為一個有意義的BLCEA(Beside Lowest Common Entity Ancestor)語義實體。該查詢語義使得用戶能夠得到語義完整的結果，同時在查準率和查全率方面比已有的經典查詢語義有明顯的優勢。本發明設計了一種結果排序方法，對BLCEA節點集合進行排序，保證在關鍵字模糊性存在時的檢索效率。

本發明為實現上述發明目的采用如下技術方案：

一種XML關鍵字查詢方法，包括如下步驟：

步驟1，確定XML文檔關鍵字序列的BLCEA節點集合，

所述BLCEA節點為實體節點，去掉BLCEA節點的子孫中包含所有查詢關鍵字的實體節點之后，剩余的子孫中仍然包含所有查詢關鍵字，

實體的定義是通過對XML文檔中的節點進行分類得到，XML文檔中的節點分類及定義如下：

值節點：在XML文檔中，是葉子節點的節點。

屬性節點：在XML文檔中，只有一個值節點作為孩子節點的那些節點。

實體節點：若XML文檔的模式信息可以獲得，即DTD或XML Schema存在，那么實體就是DTD中帶*號或者+號并且不是屬性結點的結點；否則分析XML文檔，若節點與其父節點存在一對多關系，則該節點為實體節點。

連接節點：在XML文檔中，若節點不是值節點、屬性節點或實體節點，那么它就是連接節點，連接節點的孩子是實體節點、屬性節點或者其他的連接節點：

步驟1-1，初始化BLCEA節點集合為空；

步驟1-2，獲得所有關鍵字匹配節點的有序LDewey編碼集合，所述LDewey編碼包括：關鍵字匹配節點所處層次信息level、關鍵字匹配節點的祖先節點在各自所處層次中的位置信息ancestor、關鍵字匹配節點在所處層次中的位置信息location，LDewey編碼結構如下：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。